比利时 的 佛 兰 芒 族 地 理学 家 和 地 图 学 家 亚伯拉罕 : 奥 特 柳 斯 ， 在 研究 了 一 个 世纪 以 来 环球 旅行 探险 家 们 撰写 的 资料 后 ， 于 1570 年 在 比利时 的 安特卫普 绘制 了 世界 上 第 一 张 现代 地 图 
集 《 世 界 概 狐 》， 即 把 各 种 地 理 上 的 复杂 数据 通过 图 示 的 方法 展示 给 人 们 。26 年 后 ， 奥 特 柳 斯 提出 了 “大 陆 漂移 学 说 ”的 设想 。 后 来 我们 还 可 以 在 地 图 上 显示 人 口 分 布 数据 ， 世 界 
宗教 分 布 ， 世 界 人 民 喜 欢 什么 运动 的 分 布 ， 到 今天 的 网 民 的 分 布 ， 各 国人 民 喜 爱 的 网 站 分 布 ， 各 种 调研 统计 的 数据 分 布 ， 等 等 。 


1812 年 夏 ， 俄 法 战争 爆发 ， 拿 破 仓 开始 进攻 俄国 ， 在 战争 中 遭受 了 灾难 性 损失 ，1813 年 以 失败 告终 。 法 国 工程 师 Charles Joseph Minard 于 1869 年 11 月 20 日 ， 在 巴黎 创作 完成 了 
一 张 在 信息 图 界 有 里 程 碑 地 位 的 “拿破仑 1812 一 1813 年 俄国 大 进军 的 人 员 损 失 图 ”。 信息 图 以 真实 地 图 为 背景 ， 起 于 波兰 -俄国 边境 ， 止 于 莫斯科 。 他 在 图 中 使 用 了 6 个 变量 的 数据 : 
拿破仑 军队 的 数量 、 行 军 路 线 、 气 温 、 地 理 位 置 、 行 军 到 特定 地 点 的 时 间 和 距离 。 线 条 宽度 代表 拿破仑 的 军队 人 数 ， 黄 色 表 示 进 攻 路 线 ， 黑 色 表 示 撤 退 的 路 线 。 开 始 东 征 时 有 约 42 万 
大 军 ， 到 达 莫 斯 科 时 剩余 约 10 万 人 ， 最 终 返 回 约 1 万 多 人 。 图 中 下 面部 分 的 温度 折线 图 摘 绘 了 撤退 途中 的 温度 变化 ， 最 低温 度 达 到 -37.5 摄 氏 度 。 对 比 军 队 规模 在 撤退 途中 的 阶梯 状 锅 减 
的 转折 点 与 对 应 的 温度 变化 ， 排 除了 当地 发 生 过 战役 事件 后 ， 我 们 可 以 直观 地 推断 出 撤退 时 导致 士兵 死亡 的 最 大 原因 是 气温 。 


这 两 张 图 是 数据 可 视 化 的 经 典 案例 。 通 过 一 张 图 ， 就 把 无 数 的 数据 汇集 在 一 起 ， 将 数据 之 间 的 各 种 联系 直观 地 展示 出 来 ， 从 而 揭示 出 了 很 多 内 在 的 含义 。 想 象 一 下 在 当时 的 环境 
下 ， 完 全 用 手工 的 方式 把 如 此 多 的 代表 不 同 维度 的 数据 按照 一 定 的 构思 汇集 在 一 起 ， 是 何等 烦琐 、 艰 难 、 耗 时 。 


20 世 纪 60 年 代 人 类 就 实现 了 用 计算 机 来 做 统计 分 析 运 算 ， 但 是 到 了 80 年 代 才 实现 了 计算 机 的 图 形 化 显示 、 可 视 化 的 数据 展示 。 这 也 仅仅 是 在 数字 列表 的 基础 上 增加 了 显示 简单 图 
形 的 功能 。 到 了 21 世 纪 ， 计 算 机 技术 和 互联 网 技术 获得 了 长 足 的 发 展 ， 各 种 应 用 也 越 趋 广泛 ， 特 别 是 电子 商务 、 社 交 媒 体 、 移 动 应 用 和 ERP 的 广泛 应 用 ， 极 大 地 促进 了 数据 的 增长 ， 而 
且 数 据 的 种 类 繁多 ， 非 结构 化 的 数据 占 主要 分 量 ， 由 此 对 数据 分 析 的 能 力 提出 了 前 所 未 有 的 挑战 。 为 了 应 对 这 些 挑战 ， 人 们 发 明了 人 存储 这 些 数 据 的 平台 Hadoop， 处 理 大 量 数据 的 高 性 
能 分 析 技 术 ， 开 发 了 新 的 模型 和 算法 处 理 非 结构 化 数据 ， 用 新 的 计算 机 图 形 学 技术 与 模型 来 展示 它们 各 种 内 在 的 关系 。 我 们 可 以 看 到 ， 今 天 我 们 对 统计 分 析 软 件 的 要 求 与 过 去 已 经 有 了 
很 大 的 区 别 。 那 么 这 些 区 别 包括 哪些 内 容 呢 ? 


传统 的 统计 分 析 软 件 主要 是 分 析 结 构 化 的 数据 ， 这 些 数据 都 是 人 存储 在 关系 数据 库 、 纯 文本 、Excel 等 文件 中 。 今 天 数据 种 类 以 非 结构 化 的 数据 偏 多 ， 而 且 过 去 的 关系 数据 库 已 经 无 
法 存储 这 些 数据 ， 无 论 是 存储 数据 量 上 ， 还 是 数据 种 类 上 都 无 法 满足 要 求 。Hadoop 既 支持 分 布 式 存储 ， 又 支持 非 结构 化 数据 存储 。 因 此 ， 我 们 新 的 统计 分 析 软 件 不 但 要 支持 传统 的 数 
据 存 储 软 件 ， 也 要 支持 Hadoop。 


过 去 要 分 析 的 数据 量 相对 来 说 都 比较 小 ， 计 算 时 间 基 本 上 是 可 以 接受 的 (即使 需要 花费 几 个 小 时 ) 。 但 是 , 今天 的 数据 量 有 时 候 几 天 都 不 一 定 能 计算 出 结果 来 。 这 就 要 求 我 们 在 计 
算 技 术 上 有 新 的 突破 。SAS 使 用 了 网 格 分 布 式 计算 技术 ,把 计算 步骤 和 数据 都 分 成 块 ， 用 不 同 的 计算 器 件 ， 不 同 的 CPU 多 线程 地 进行 计算 ,然后 把 结果 合 起 来 ;， 用 库 内 分 析 技 术 ， 把 对 
数据 的 分 析 计 算 放 到 数据库 内 来 进行 ， 减 少 了 对 数据 的 提取 和 传输 过 程 ， 用 内 存 分 析 技 术 ， 把 由 硬盘 读 取 和 存放 数据 的 过 程 改 到 了 由 内 存 读 取 和 存放 数据 。 这 三 项 技术 中 的 任何 一 项 都 
可 以 极 大 地 提高 数据 分 析 速 度 ， 三 项 技术 合 而 为 一 ， 可 以 获得 震撼 性 的 效果 ， 使 得 实时 分 析 成 为 可 能 。 过 去 的 数据 量 小 ， 很 容易 查看 ， 了 解数 据 属性 。 要 查看 今天 的 数据 就 要 困难 许 
多 ， 我 们 将 这 一 过 程 称 为 数据 探索 。 探 索 的 过 程 ， 不 仅仅 是 翻 看 数据 ， 还 要 试探 性 地 做 一 些 分 析 结 果 的 展示 ， 整 个 的 探索 过 程 要 流畅 ， 不 能 有 明显 的 延迟 。 现 在 的 高 性 能 分 析 技 术 完 全 
可 以 做 到 。 


传统 统计 分 析 展 示 的 图 表 通 常 都 是 饼 图 、 直 方 图 、 折 线 图 、 散 点 图 、 柱 状 图 、 箱 式 图 、 仪 表盘 等 。 虽 然 这 些 图 表 也 是 人 们 经 常会 用 到 的 图 示 ， 但 是 如 今 已 经 远 远 不 够 了 。 今 天 的 可 
视 化 技术 还 可 以 展示 流程 图 、 人 衍生 分 支 图 、 气 泡 图 、 德 形 树 图 、 面 积 图 、 树 状 图 、 各 种 地 图 、 词 云 、 瀑 布 图 、 漏 斗 图 、 网 络 结构 图 等 种 类 繁多 的 图 形 ， 以 满足 不 同 的 展示 和 分 析 需 求 。 


SAS 作 为 统计 分 析 软 件 的 领导 者 ， 早 在 2012 年 就 发 布 了 可 视 化 分 析 软 件 “Visual Analytics”， 简 称 VA。2016 年 ，SAS 又 推出 了 Viya， 新 一 代 的 云 上 数据 分 析 平 台 ， 而 VA 成 为 所 
有 在 Viya 上 运行 的 行业 解决 方案 的 模板 。VA 是 基于 高 性 能 分 析 技 术 的 ,支持 Hadoop， 其 可 视 化 功能 涵盖 了 整个 数据 分 析 的 全 生命 周期 ， 并 且 简 单 、 易 用 ， 给 用 户 带 来 全 新 的 数据 分 
析 体 验 。VA 还 提供 了 21 种 可 视 化 视图 和 分 析 方 法 ， 支 持 对 结构 化 、 半 结构 化 和 非 结构 化 数据 的 可 视 化 分 析 ， 支 持 多 用 户 的 信息 共享 和 移动 技术 。SAS 在 高 级 分 析 领 域 占有 绝对 的 领先 
地 位 ， 因 此 ，VA 不 仪 支持 普通 商务 智能 级 别 的 分 析 ， 还 支持 高 级 分 析 ， 就 是 支持 全 级 别 的 数据 分 析 ， 这 也 是 SAS 可 视 化 分 析 产 品 与 其 他 厂家 不 一 样 的 地 方 。 


本 书 比 较 全 面 地 介绍 了 可 视 化 分 析 的 基本 概念 、 技 术 组 成 和 产品 的 架构 。 通 过 本 书 的 学 习 ， 读 者 除了 可 以 了 解 可 视 化 的 知识 以 外 ， 还 可 以 学 习 可 视 化 分 析 的 基本 方法 。 本 书 特别 适 
合 于 那些 希望 通过 简洁 、 快 速 的 方法 就 能 够 进行 数据 管理 ， 进 行 数据 探索 ; 无 须 写 代 码 就 能 进行 数学 建 模 ; 设计 各 种 实用 报表 方便 决策 的 数据 分 析 人 员 和 相应 的 管理 人 员 。 对 于 进入 数 
据 分 析 的 初级 人 员 ， 本 书 也 是 一 本 不 错 的 指南 。 


本 书 共 8 章 。 前 两 章 主 要 介绍 可 视 化 分 析 的 基本 概念 和 技术 。 第 3 ~ 6 章 涉及 整个 数据 分 析 的 生命 周期 。 第 3 章 介 绍 数据 管理 ;， 第 4 章 介 绍 了 报表 的 制作 ;第 5 章 介绍 商务 智能 分 析 ; 
第 6 章 介绍 统计 分 析 和 数据 建 模 。 最 后 两 章 是 可 视 化 的 基本 应 用 。 第 7 章 介绍 可 视 化 反 鞭 诈 方 面 的 内 容 ， 第 8 章 介绍 可 视 化 的 企业 级 部 署 。 


本 书 的 完成 ， 来 自 于 整个 创作 团队 的 驻 勤 耕作 。 大 家 利用 自己 的 休息 时 间 ， 一 遍 一 遍地 查阅 资料 ， 构 思 内 容 ， 完 成 配 图 ， 才 使 得 本 书 得 以 和 各 位 读者 见面 。 在 这 里 我 要 束 心 地 感谢 
大 家 的 付出 和 各 位 家 庭 的 支持 。 感 谢 那 些 以 各 种 方式 为 本 书 的 完成 提供 了 帮助 的 同事 和 朋友 。 


SAS 公 司 在 过 去 的 40 多 年 里 ， 为 行业 贡献 了 各 种 里 程 碑 式 的 产品 ， 包 括 我 们 在 书 中 要 给 大 家 介绍 的 可 视 化 分 析 产 品 。 在 这 里 我 们 要 感谢 SAS 公 司 开 发 的 优秀 产品 ， 感 谢 公 司 提供 的 
工作 学 习 环 境 和 各 种 资料 ， 以 及 对 出 版 本 书 的 支持 。 


最 后 ， 要 特别 感谢 机 械 工 业 出 版 社 华章 公司 的 编辑 们 。 感 谢 他 们 对 于 本 书 出 版 的 指导 和 帮助 。 
刘 政 


2018 年 5 月 于 北京 


1.1 可视化 分 析 的 意义 


数据 可 视 化 分 析 是 通过 友好 的 交互 式 图 形 界面 ， 来 辅助 用 户 对 数据 进行 复杂 处 理 和 分 析 的 科学 与 技术 。 数 据 分 析 的 可 视 化 至 少 包 含 两 个 方面 的 含义 ， 其 一 是 指 在 数据 分 析 的 过 程 
中 ， 通 过 直观 的 图 形 化 界面 以 交互 的 方式 采用 合适 的 数据 分 析 方 法 ， 对 复杂 的 数据 进行 有 效 的 处 理 和 分 析 ， 其 二 是 指 在 各 个 分 析 阶 段 的 分 析 结 果 处 理 中 ， 通 过 直观 的 图 形 化 界面 以 交互 
的 方式 采用 包括 图 像 在 内 的 多 种 形式 表达 展示 和 传递 分 享 分 析 的 结果 。 


数据 分 析 的 意义 在 于 从 数据 中 发 现 有 意义 的 信息 。 可 视 化 数据 分 析 的 意义 在 于 让 分 析 的 过 程 更 简单 直观 ， 让 分 析 的 结果 更 简洁 清楚 ， 从 而 让 更 多 的 人 可 以 利用 复杂 的 分 析 方 法 来 洞 
察 数据 ， 让 更 多 的 人 可 以 利用 数据 分 析 的 结果 指导 和 帮助 自己 的 工作 。 

如 上 所 述 ， 数 据 分 析 的 可 视 化 ， 既 体现 在 通过 图 形 的 方式 清晰 有 效 地 表达 和 传递 信息 ， 也 体现 在 帮助 理解 和 分 析 复 杂 的 数据 。 例 如 ， 通 过 数据 可 视 化 分 析 ， 我 们 可 以 将 一 个 包含 多 
个 维度 信息 的 数据 通过 图 形 化 操作 界面 方便 地 转化 成 为 用 户 可 以 直观 查看 ， 并 且 可 以 快速 解读 的 图 形 ， 这 样 数 据 当 中 蕴含 的 信息 才 可 以 被 快速 直观 地 理解 ， 进 而 使 用 户 可 以 基于 数据 中 
的 信息 进行 有 效 的 决策 。 


接 下 来 我 们 通过 一 个 具体 的 例子 展现 可 视 化 在 数据 分 析 中 的 作用 。 首 先 查 看 下 面 的 数据 集 ， 该 数据 集 有 11 个 观测 和 8 个 变量 ， 见 图 1-1。 


对 数据 的 描述 性 统计 量 进行 计算 显示 ， 数 据 中 x1，x2，x3，x4 的 平均 值 均 为 54，y1，y2，y3，y4 的 平均 值 均 为 37.5， 同 时 x1，x2，x3，x4 的 方差 均 为 396,， 而 y1，y2,，y3,，y4 的 
方差 也 很 接近 ， 在 103 左 右 (如 图 1-2 所 示 ) 。 





图 1-1 数据 集 列 表 


Varlable Mean Varlance 





图 1-2 ”数据 集 变 量 描述 统计 量 


通过 计算 数据 集 当 中 4 对 变量 (x1, y1) ， (x2，y2) ， (x3，y3) ， (x4，y4) 的 相关 性 ， 发 现 相关 系数 均 为 0.816。 


如 果 只 对 数据 集 当中 4 对 变量 的 均值 、 方 差 以 及 相关 性 计算 数值 ， 而 不 进行 数据 可 视 化 分 析 ， 除 非 分 析 者 具备 比较 全 面 的 统计 学 知识 和 思维 习惯 ,否则 也 许 会 得 出 这 样 的 结论 : 4 
对 变量 的 天 系 是 一 样 的 。 可 是 当 我 们 尝试 将 4 对 变量 分 别 进行 可 视 化 分 析 ， 用 数据 集 当 中 的 11 个 观测 生成 散 点 图 时 ， 我 们 就 会 得 到 图 1-3 所 示 的 结果 。 


这 时 候 ， 我 们 不 难 发 现 4 对 变量 之 间 的 关系 存在 较 大 差异 。 也 就 是 说 虽然 4 对 变量 在 均值 、 方 差 、 相 关 性 上 都 一 致 ， 但 是 可 视 化 分 析 显 示 了 它们 各 自 之 间 的 特殊 关系 。 可 以 看 到 在 
(x3，y3) 和 (x4，y4) 的 散 点 图 中 显著 存在 的 离 群 值 ， 同 时 (x2，y2) 的 关系 不 是 简单 的 线性 关系 。 这 个 例子 简单 印证 了 数据 可 视 化 分 析 在 揭示 数据 之 间 隐 藏 天 系 方面 所 具有 的 重 
要 作用 。 一 般 来 说 ， 数 据 可 视 化 分 析 的 益处 可 以 归纳 为 以 下 几 个 方面 : 


数据 可 视 化 分 析 使 得 数据 中 所 蕴含 的 信息 更 直观 ， 更 容易 被 理解 ， 同 时 数据 可 视 化 分 析 还 可 以 发 现 数 据 之 间 隐 藏 的 关系 。 
- 数据 可 视 化 分 析 使 得 数据 分 析 的 门槛 降低 ， 业 务 人 员 可 以 通过 可 视 化 分 析 界 面 去 获取 数据 ， 探 索 数据 ， 进 行 数据 分 析 。 


. 数据 可 视 化 分 析 可 以 让 用 户 更 容易 和 数据 进行 交互 ， 数 据 可 视 化 分 析 赋 了 予 了 业务 人 员 新 的 “语言 ”， 使 他 们 可 以 更 有 力 地 利用 数据 去 表达 观点 。 
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图 1-3 ”变量 关系 可 视 化 展现 


第 1 草 “可视化 分 析 概 论 


1.1 可视化 分 析 的 意义 


数据 可 视 化 分 析 是 通过 友好 的 交互 式 图 形 界面 ， 来 辅助 用 户 对 数据 进行 复杂 处 理 和 分 析 的 科学 与 技术 。 数 据 分 析 的 可 视 化 至 少 包 含 两 个 方面 的 含义 ， 其 一 是 指 在 数据 分 析 的 过 程 
中 ， 通 过 直观 的 图 形 化 界面 以 交互 的 方式 采用 合适 的 数据 分 析 方法 ， 对 复杂 的 数据 进行 有 效 的 处 理 和 分 析 ， 其 二 是 指 在 各 个 分 析 阶 段 的 分 析 结果 处 理 中 ， 通 过 直观 的 图 形 化 界面 以 交互 
的 方式 采用 包括 图 像 在 内 的 多 种 形式 表达 展示 和 传递 分 享 分 析 的 结果 。 


数据 分 析 的 意义 在 于 从 数据 中 发 现 有 意义 的 信息 。 可 视 化 数据 分 析 的 意义 在 于 让 分 析 的 过 程 更 简单 直观 ， 让 分 析 的 结果 更 简洁 清楚 ， 从 而 让 更 多 的 人 可 以 利用 复杂 的 分 析 方 法 来 洞 
察 数据 ， 让 更 多 的 人 可 以 利用 数据 分 析 的 结果 指导 和 帮助 自己 的 工作 。 

如 上 所 述 ， 数 据 分 析 的 可 视 化 ， 既 体现 在 通过 图 形 的 方式 清晰 有 效 地 表达 和 传递 信息 ， 也 体现 在 帮助 理解 和 分 析 复 杂 的 数据 。 例 如 ， 通 过 数据 可 视 化 分 析 ， 我 们 可 以 将 一 个 包含 多 
个 维度 信息 的 数据 通过 图 形 化 操作 界面 方便 地 转化 成 为 用 户 可 以 直观 查看 ， 并 且 可 以 快速 解读 的 图 形 ， 这 样 数 据 当 中 蕴含 的 信息 才 可 以 被 快速 直观 地 理解 ， 进 而 使 用 户 可 以 基于 数据 中 
的 信息 进行 有 效 的 决策 。 


接 下 来 我 们 通过 一 个 具体 的 例子 展现 可 视 化 在 数据 分 析 中 的 作用 。 首 先 查 看 下 面 的 数据 集 ， 该 数据 集 有 11 个 观测 和 8 个 变量 ， 见 图 1-1。 


对 数据 的 描述 性 统计 量 进行 计算 显示 ， 数 据 中 x1，x2，x3，x4 的 平均 值 均 为 54，y1，y2，y3，y4 的 平均 值 均 为 37.5， 同 时 x1，x2，x3，x4 的 方差 均 为 396,， 而 y1，y2，y3,，y4 的 
方差 也 很 接近 ， 在 103 左 右 (如 图 1-2 所 示 ) 。 
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图 1-2 ”数据 集 变量 描述 统计 量 


通过 计算 数据 集 当 中 4 对 变量 (x1, y1) ， (x2，y2) ， (x3，y3) ， (x4，y4) 的 相关 性 ,发现 相关 系数 均 为 0.816。 


如 果 只 对 数据 集 当中 4 对 变量 的 均值 、 方 差 以 及 相关 性 计算 数值 ， 而 不 进行 数据 可 视 化 分 析 ， 除 非 分 析 者 具备 比较 全 面 的 统计 学 知识 和 思维 习惯 ,否则 也 许 会 得 出 这 样 的 结论 : 4 
对 变量 的 关系 是 一 样 的。 可 是 当 我 们 尝试 将 4 对 变量 分 别 进行 可 视 化 分 析 ， 用 数据 集 当中 的 11 个 观测 生成 散 点 图 时 ， 我 们 就 会 得 到 图 1-3 所 示 的 结果 。 


这 时 候 ， 我 们 不 难 发 现 4 对 变量 之 间 的 关系 存在 较 大 差异 。 也 就 是 说 虽然 4 对 变量 在 均值 、 方 差 、 相 关 性 上 都 一 致 ， 但 是 可 视 化 分 析 显 示 了 它们 各 自 之 间 的 特殊 关系 。 可 以 看 到 在 
(x3，y3) 和 (x4，y4) 的 散 点 图 中 显著 存在 的 离 群 值 ， 同 时 (x2，y2) 的 关系 不 是 简单 的 线性 关系 。 这 个 例子 简单 印证 了 数据 可 视 化 分 析 在 揭示 数据 之 间 隐 藏 天 系 方面 所 具有 的 重 


要 作用 。 一 般 来 说 ,数据 可 视 化 分 析 的 益处 可 以 归纳 为 以 下 几 个 方面 : 
" 数据 可 视 化 分 析 使 得 数据 中 所 蕴含 的 信息 更 直观 ， 更 容易 被 理解 ， 同 时 数据 可 视 化 分 析 还 可 以 发 现 数据 之 间 隐 藏 的 关系 。 
` 数据 可 视 化 分 析 使 得 数据 分 析 的 门槛 降低 ， 业 务 人 员 可 以 通过 可 视 化 分 析 界 面 去 获取 数据 ， 探 索 数 据 ， 进 行 数据 分 析 。 


* 数据 可 视 化 分 析 可 以 让 用 户 更 容易 和 数据 进行 交互 ， 数 据 可 视 化 分 析 赋 予 了 业务 人 员 新 的 “语言 ,使 他 们 可 以 更 有 力 地 利用 数据 去 表达 观点 。 
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图 1-3 ”变量 关系 可 视 化 展现 
1.2 ”数据 可 视 化 分 析 兴 起 的 背景 
上 面 的 例子 简单 介绍 了 可 视 化 分 析 如 何 帮 助 更 好 地 理解 和 分 析 数 据 。 但 是 ， 很 显然 ， 仅 赁 上 面 提 到 的 技术 性 优势 是 不 可 能 让 这 一 领域 成 为 数据 分 析 行 业 的 一 个 热点 的 。 那 么 数据 可 


视 化 分 析 为 什么 会 变 得 如 此 重要 ” 究 其 主要 原因 ， 还 是 由 于 数据 分 析 日 趋 重 要 而 引起 的 对 数据 分 析 需 求 的 不 断 增长 和 对 高 素质 数据 分 析 人 员 的 巨大 需求 。 


数据 已 经 成 为 各 个 组 织 机 构 的 宝贵 资产 ， 如 何 有 效 地 利用 数据 了 解 过 去 、 管 理 现在 、 预 测 并 且 优 化 未 来 成 为 它们 发 展 的 重要 问题 ， 数 据 分 析 已 经 成 为 提升 企业 竞争 力 的 关键 环节 。 
越 来 越 多 的 组 织 机 构 依靠 正确 可 靠 的 信息 来 进行 决策 并 取得 成 功 ， 而 其 中 绝 大 部 分 正确 可 靠 的 信息 出 自 数 据 分 析 ， 所 以 在 这 些 组 织 机 构 中 ， 逐 渐 出 现 了 数据 科学 家 的 角色 ， 并 且 这 个 角 
色 显 得 日 益 重要 。 


各 机 构 对 于 数据 科学 家 的 期 望 是 能 够 对 海量 的 数据 进行 处 理 ， 并 采用 适当 的 算法 从 海量 数据 当中 获取 有 价值 的 信息 。 具 体 来 说 ， 数 据 科 学 家 的 职责 体现 在 数据 价值 链 的 四 个 阶段 : 
数据 产生 、 数 据 获 取 、 数 据 存储 和 管理 、 数 据 分 析 。 如 果 把 数据 当 作 是 原始 资料 ， 前 两 个 阶段 是 资料 采集 阶段 ， 而 数据 存储 和 管理 与 数据 分 析 则 是 对 这 些 原 始 资料 进行 深加工 产生 巨大 
价值 的 阶段 。 由 于 这 四 个 阶段 所 需要 的 技能 各 不 相同 ， 所 以 一 名 出 色 的 数据 科学 家 也 需要 掌握 应 对 各 个 不 同 阶段 工作 的 技能 。 具 体 来 说 ， 数 据 科学 家 需要 有 一 定 的 数学 知识 ， 尤 其 是 统 
计 学 和 德 阵 运 算 的 相关 知识 ; 另外 ， 数 据 科学 家 应 该 有 较 强 的 程序 开发 能 力 ， 能 够 对 算法 和 处 理 数 据 的 逻辑 通过 开发 代码 实现 ; 其 次 ， 数 据 科学 家 需要 具备 快速 理解 业务 背景 和 问题 的 
能 力 ， 在 现实 中 不 难 发 现 ， 很 多 数据 科学 家 也 是 某 个 领域 (例如 金融 或 供应 链 等 领域 ) 的 业务 专家 ; 当然 数据 科学 家 还 应 当 善 于 沟通 ， 善 于 将 分 析 的 过 程 和 分 析 的 结果 和 别人 分 享 。 


对 数据 科学 家 的 这 些 要 求 和 他 们 所 需要 承担 的 责任 ， 使 得 寻找 合适 的 数据 科学 家 并 非 易 事 。 事 实 上 具有 丰富 的 数学 知识 ， 高 超 的 编程 经 验 ， 并 且 具 有 相当 的 行业 领域 知识 的 人 才 是 
非常 稀缺 的 。 而 对 于 数据 科学 家 的 需求 则 是 不 断 增 加 的 。 由 此 就 带 来 两 个 问题 ， 第 一 ， 如 何 降低 数据 分 析 的 工作 强度 以 使 数据 科学 家 能 够 承担 更 多 的 工作 ? 第 二 ， 如 何 采 用 有 效 的 技术 
与 工具 ， 使 得 更 多 的 人 可 以 分 担 数据 科学 家 的 工作 ? 数据 可 视 化 分 析 技 术 就 是 在 这 样 的 背景 出 现 并 飞速 发 展 的 。 好 的 数据 可 视 化 分 析 工 具 为 具备 一 定 业务 知识 以 及 数学 知识 ， 但 对 于 计 
算 机 程序 开 有 友 了 解 较 少 的 人 才 提供 了 对 大 量 数据 进行 快速 有 效 分 析 的 利器 。 可 视 化 分 析 技 术 提供 的 自助 式 的 数据 准备 、 数 据 转换 ， 殊 互 式 的 数据 探索 以 及 容易 上 手 的 高 级 分 析 技术 ， 可 
以 让 更 多 的 人 员 经 过 短期 的 培训 就 能 够 处 理 和 分 析 大 量 的 数据 。 


1.3 效 据 分 析 的 可 钢化 与 分 析 的 不 同 层次 


数据 分 析 的 可 视 化 是 指数 据 分 析 过 程 的 可 视 化 和 数据 分 析 结果 的 可 视 化 。 一 个 完整 的 数据 分 析 过 程 包括 数 据 获 取 、 数 据 的 清洗 与 转换 、 数 据 分 析 和 模型 开 友 ， 以 及 分 析 结 果 的 展现 
这 几 个 环节 。 可 视 化 在 每 一 个 阶段 都 可 以 起 到 重要 的 作用 。 


1.3.1 数据 获取 与 数据 转换 


数据 必须 能 够 通过 获取 、 整 合 、 转 换 成 为 适合 进行 处 理 的 格式 ， 这 是 任何 分 析 的 基础 。 用 户 需要 分 析 的 数据 往往 是 以 多 种 形式 存在 的 。 这 些 数 据 可 能 以 文本 文件 形式 存在 ， 可 能 存 
储 在 天 系 型 数据 库 系 统 当中 ， 也 可 能 存储 在 Hadoop 文 件 系统 中 。 可 视 化 分 析 在 这 一 阶段 可 以 通过 友好 交互 的 图 形 化 应 用 界面 定义 数据 获取 的 机 制 和 规则 ， 生 成 数据 抽取 的 代码 ， 直 接 
利用 生成 的 代码 或 基于 生成 的 代码 将 数据 从 各 种 不 同 的 数据 源 当 中 高 效 地 抽取 出 来 。 


数据 的 转换 是 指 通 过 一 定 的 步骤 将 数据 转化 成 为 能 够 提供 更 多 信息 的 形式 。 一 般 来 说 ， 数 据 转换 可 以 分 为 两 类 。 一 类 是 根据 业务 规则 生成 分 析 需 要 的 新 的 数据 ， 例 如 根据 银行 账户 
的 余额 和 交易 的 发 生 额 生成 账户 的 每 日 余额 和 日 均 余 额 ， 另 一 类 是 根据 分 析 的 需要 对 现 有 数据 进行 技术 上 的 转换 ， 例 如 通过 共 线 性 分 析 将 某 些 匈 余 变 量 删除 ， 或 对 某 些 变 量 进行 Log 变 
换 。 数 据 转换 的 过 程 同 样 可 以 用 可 视 化 的 方式 辅助 实现 。 


1.3.2 ”高 级 分 析 与 模型 开 友 


可 视 化 分 析 技 术 同 样 可 以 为 高 级 分 析 提 供 可 视 化 的 交互 界面 和 用 以 分 析 的 辅助 图 像 。 在 这 个 阶段 ， 可 视 化 分 析 技 术 可 以 提供 诸如 散 点 图 、 盒 须 图 、 热 力图 、 气 泡 图 等 对 分 析 极 有 帮 
助 的 各 种 图 像 。 可 视 化 还 可 以 使 分 析 人 员 借 助 友好 的 交互 界面 使 用 高 级 分 析 技 术 包 括 机 器 学 习 技 术 来 建立 模型 并 进行 模型 评估 等 工作 。 总 之 ,可视化 使 得 用 户 不 需要 大 量 编码 就 可 以 使 
用 各 类 高 级 分 析 技 术 ， 从 而 使 得 分 析 的 门槛 大 大 降低 ， 普 通 的 业务 或 技术 人 员 经 过 一 定 的 培训 也 可 以 进行 高 级 分 析 。 


1.3.3 “分 析 结 果 展 现 与 模型 应 用 


只 有 分 析 的 结果 能 够 及 时 有 效 地 和 决策 人 员 共 享 ， 这 样 的 分 析 才 是 有 意义 的 。 可 视 化 使 得 分 析 过 程 、 结 果 可 以 被 生动 灵活 地 展现 和 分 享 ， 从 而 帮助 决策 者 理解 分 析 结 果 。 如 果 分 析 
的 结果 是 一 个 模型 ， 那 么 这 个 模型 就 应 该 能 够 方便 快捷 地 部 署 并 应 用 起 来 ， 只 有 这 样 模 型 才 可 以 在 决策 过 程 中 发 挥 作用 。 可 视 化 技术 能 够 简化 模型 部 署 的 过 程 ， 并 且 使 得 监控 模型 的 工 
作 变 得 更 简单 。 


人 们 谈 及 数据 可 视 化 分 析 ， 一 个 常见 的 误区 是 认为 可 视 化 分 析 就 是 报表 和 图 形 。 实 际 上 数据 可 视 化 分 析 涵 盖 了 数据 分 析 的 各 个 层面 ， 具 体 而 言 ， 可 以 分 为 下 面 不 同 的 8 个 层次 : 
* 标准 报表 : 标准 报表 是 一 个 组 织 机 构 甚 至 一 个 行业 所 需要 的 基本 固定 报表 或 数据 图 表 ， 可 以 回答 诸如 “发 生 了 什么 ”以 及 “什么 时 候 发 生 ”这 样 的 简单 业务 问题 。 


- 即席 报表 : 即席 报表 可 以 允许 使 用 人 员 在 一 定 的 范围 内 输入 条 件 信息 然后 即时 地 按照 输入 的 条 件 得 出 报表 或 图 形 报告 。 可 以 对 于 “在 哪里 发 生 ” ” “发生 频率 ”以 及 “多 少 ”这样 


的 业务 问题 进行 回答 。 比 如 业务 人 员 会 希望 立刻 看 到 对 于 某 一 个 区 域 在 某 个 时 间 段 的 销售 情况 。 
` 钻 取 查询 : 钻 取 查询 的 功能 就 是 联机 分 析 处 理 (OLAP) 所 提供 的 功能 。 它 可 以 让 业务 人 员 从 不 同 的 业务 维度 分 析 结 果 ， 并 对 数据 进行 钻 取 从 而 分 析 问 题 发 生 的 根本 原因 。 


* 警报 : 警报 信息 可 以 在 发 生 特定 问题 的 情况 下 通知 相关 人 员 。 比 如 ， 当 销售 目标 低 于 预期 时 ， 销 售 管理 人 员 会 收 到 提醒 ， 提 醒 的 方式 可 以 通过 电子 邮件 ， 也 可 以 通过 仪表 盘 等 方 


这 四 个 层次 的 分 析 基 本 上 就 是 传统 意义 上 的 报表 ， 这 些 分 析 可 以 根据 数据 对 于 已 经 友 生 的 事情 生成 报表 。 但 是 这 些 分 析 的 不 足 也 是 显而易见 的 ， 即 它们 都 不 能 提供 关于 未 来 的 任何 
分 析 。 如 果 业 务 部 门 需要 了 解 更 为 复杂 的 关于 未 来 的 预测 性 的 分 析 ， 那 么 就 需要 依赖 高 级 分 析 ， 即 下 面 的 四 个 层次 的 高 级 分 析 。 


“ 统计 分 析 : 基于 数据 ， 统 计 分 析 可 以 应 用 一 些 较为 复杂 的 分 析 模 型 ， 如 回归 。 业 务 人 员 通 过 回归 模型 可 以 了 解 为 什么 某 件 事情 会 发 生 ， 以 及 影响 该 事件 发 生 的 各 个 因素 所 占 的 权 


时间 序列 预测 : 时 间 序 列 预测 可 以 用 来 分 析 按 时 间 顺 序 生 成 的 数据 列 。 例 如 可 以 帮助 零售 商 预计 某 个 商品 未 来 一 段 时 间 在 各 个 门店 的 需求 。 这 种 需求 预测 可 以 帮助 零售 商 以 适当 
的 成 本 提供 定量 的 商品 以 应 对 客户 对 于 不 同 产品 的 需求 。 


` 预测 模型 : 假设 某 个 公司 拥有 上 千 万 的 客户 ， 如 果 该 公司 希望 展开 一 次 市 场 营 销 活 动 ， 那 么 哪些 客户 会 对 该 营销 活动 积极 响应 ? 或 者 该 公司 希望 了 解 自己 的 客户 中 有 哪些 客户 可 
能 流失 ? 预测 模型 正 是 用 来 回答 类 似 这 样 的 问题 的 。 预 测 模型 已 经 成 功 应 用 于 许多 领域 ， 比 如 风险 评估 、 坎 诈 监 控 和 数据 库 营 销 等 。 


` 优化 : 优化 可 以 解决 在 资源 约束 的 情况 下 ， 如 何 得 到 最 佳 产 出 的 问题 。 比 如 在 市 场 营 销 活 动 中 ， 业 务 人 员 往 往 面 临 营销 经 费 固 定 ， 营 销 人 员 数 量 有 限 的 约束 ， 如 何在 这 样 的 约束 


情况 下 取得 最 佳 的 市 场 营销 效果 ， 市 场 营 销 优 化 就 可 以 给 出 最 优 的 营销 策略 。 另 外 在 供应 链 领 域 ， 库 存 如 何 优 化 也 是 一 个 常见 的 问题 ， 库 存 过 高 会 给 整个 供应 链 带 来 资金 的 压力 ， 库 存 
过 低 则 可 能 不 能 及 时 满足 客户 的 需求 ， 库 存 优化 则 可 以 在 满足 客户 需求 的 情况 下 将 整个 供应 链 的 库存 尽 可 能 降低 。 


上 面 这 四 类 高 等 分 析 可 以 基于 数据 进行 统计 分 析 、 预 测 和 优化 ， 因 此 可 以 提供 预测 性 的 洞察 力 ， 从 而 回答 更 为 复杂 的 业务 问题 。 为 了 应 对 日 益 复 杂 的 业务 问题 ， 数 据 可 视 化 分 析 软 
件 需要 提供 从 标准 报表 到 预测 以 及 优化 的 全 方位 的 解决 方案 。 





1.4 ”可视化 分 析 面 临 的 挑战 己 应 对 


1.4.1 ”可视化 分 析 面 临 的 挑战 


在 大 数据 时 代 ， 数 据 可 视 化 分 析 面 临 巨大 的 挑战 ， 企 业 需要 更 新 的 数据 分 析 平 台 以 满足 不 断 发 展 的 数据 分 析 需 求 。 新 的 数据 分 析 平 台 要 能 够 对 海量 的 数据 进行 快速 的 处 理 、 探 索 和 
高 级 分 析 。 在 大 数据 时 代 ， 企 业 的 数据 量 快速 的 增长 ， 企 业 所 得 到 的 数据 会 呈现 多 样 性 ， 企 业 需要 处 理 的 业务 问题 也 越发 复杂 ， 因 此 企业 需要 拥有 一 个 统一 的 数据 分 析 平 台 去 分 析 大 量 
的 各 种 不 同类 型 的 数据 ， 并 且 能 够 快速 地 对 任何 分 析 问 题 进行 处 理 。 新 一 代 的 数据 分 析 平 台 还 应 具有 扩展 性 ， 能 够 随 着 数据 量 和 分 析 人 员 的 不 断 增加 ， 而 提供 可 扩展 的 数据 分 析 能 力 。 


数据 可 视 化 分 析 面 临 的 另外 一 个 挑战 就 是 对 数据 和 分 析 过 程 的 全 面 管控 。 各 类 开源 技术 的 涌现 使 得 人 们 可 以 任意 搭配 各 类 不 同 的 开源 技术 平台 对 数据 进行 可 视 化 分 析 ， 大 大 推动 了 
可 视 化 分 析 的 普及 。 可 是 各 类 开源 技术 经 常 不 能 够 很 好 地 集成 ， 因 而 导致 对 于 数据 和 分 析 过 程 缺 乏 有 效 的 管控 ， 这 会 随 之 而 来 增加 各 种 风险 ， 比 如 维护 成 本 、 管 控 成 本 和 合 规 风险 等 。 
在 企业 内 部 对 于 数据 进行 处 理 的 工具 经 常 是 多 样 的 ， 这 会 使 得 跟 踊 数据 的 来 源 变 得 越 友 复杂 ， 此 外 人 们 还 需要 知道 现在 正在 使 用 的 模型 是 哪 一 个 版 本 、 是 否 是 最 新 发 布 的 模型 以 及 是 否 
能 够 定期 对 模型 进行 更 新 。 所 有 这 些 都 表明 一 个 能 够 对 所 有 数据 和 整个 分 析 流 程 进行 管控 的 数据 可 视 化 分 析 平 台 是 十 分 必要 的 。 


数据 可 视 化 分 析 要 能 够 解决 整个 数据 分 析 生 命 周 期 中 的 各 种 问题 。 完 整 的 数据 分 析 过 程 包括 数据 准备 、 数 据 探索 、 数 据 变换 和 变量 选择 、 建 立 模 型 、 验 证 模型 、 部 署 模 型 及 持续 评 
估 和 监控 模型 表现 。 任 何 可 视 化 分 析 的 基础 都 是 高 质量 的 数据 ， 在 数据 准备 阶段 ， 数 据 可 视 化 分 析 要 求 能 够 获取 各 种 不 同类 型 的 数据 。 客 户 的 数据 可 能 以 多 种 形式 存储 ， 可 以 是 传统 的 
Excel 文 件 、 文 本 文件 、 关 系 型 数据 库 、 电 子 邮件 、 各 类 应 用 系统 、 网 页 、 社 交 媒 体 流 ， 也 可 以 是 Hadoop、Cassandra 等 分 布 式 存储 系统 ， 数 据 可 视 化 分 析 要 能 够 帮助 用 户 通 过 可 视 化 
的 界面 获取 各 种 不 同类 型 的 数据 ， 并 且 能 够 对 数据 进行 有 效 的 整合 。 


在 数据 探索 阶段 ， 需 要 有 可 视 化 的 界面 帮助 各 种 水 平 的 用 户 对 数据 进行 探索 。 用 户 可 以 借助 可 视 化 的 界面 和 各 种 不 同类 型 的 可 视 化 图 形 对 数据 进行 探索 性 分 析 ， 生 成 各 种 直观 的 报 
表 、 图 形 。 在 建立 模型 阶段 ， 对 于 不 擅长 编程 的 用 户 ， 数 据 可 视 化 分 析 平 台 也 应 该 提供 交互 式 的 界面 帮助 用 户 建立 各 种 预测 模型 。 借 助 可 视 化 的 界面 和 可 视 化 的 报表 、 图 形 ， 拥 有 不 同 
知识 水 平 的 人 员 都 可 以 充分 利用 数据 分 析 的 能 力 ， 得 到 并 且 分 享 数据 分 析 的 结果 。 


数据 可 视 化 分 析 平 台 还 应 该 提供 全 面 的 模型 存储 、 模 型 监控 、 模 型 执行 能 力 。 数 据 可 视 化 分 析 平 台 应 该 对 各 种 类 型 的 模型 提供 统一 的 模型 管理 界面 ， 用 户 只 需要 一 次 性 导入 模型 ， 
然后 就 可 以 在 各 种 不 同系 统 当中 使 用 该 模型 。 模 型 管理 界面 还 应 当 具 备 持续 的 模型 监控 能 力 ， 当 模型 的 表现 开始 出 现 明显 衰减 时 ， 建 模 人 员 可 以 得 到 提醒 进而 重新 训练 并 且 寻 找 冠 军 模 
型 。 可 视 化 数据 分 析 平 台 还 应 该 提供 完整 的 模型 执行 的 能 力 ， 各 种 模型 能 够 轻易 地 部 署 到 各 个 生产 环境 中 。 





1.4 ”可视化 分 析 面 临 的 挑战 己 应 对 


1.4.1 可 视 化 分 析 面 临 的 挑战 


在 大 数据 时 代 ， 数 据 可 视 化 分 析 面 临 巨大 的 挑战 ， 企 业 需要 更 新 的 数据 分 析 平 台 以 满足 不 断 发 展 的 数据 分 析 需 求 。 新 的 数据 分 析 平 台 要 能 够 对 海量 的 数据 进行 快速 的 处 理 、 探 索 和 
高 级 分 析 。 在 大 数据 时 代 ， 企 业 的 数据 量 快速 的 增长 ， 企 业 所 得 到 的 数据 会 呈现 多 样 性 ， 企 业 需要 处 理 的 业务 问题 也 越发 复杂 ， 因 此 企业 需要 拥有 一 个 统一 的 数据 分 析 平 台 去 分 析 大 量 
的 各 种 不 同类 型 的 数据 ， 并 且 能 够 快速 地 对 任何 分 析 问 题 进行 处 理 。 新 一 代 的 数据 分 析 平 台 还 应 具有 扩展 性 ， 能 够 随 着 数据 量 和 分 析 人 员 的 不 断 增加 ， 而 提供 可 扩展 的 数据 分 析 能 力 。 


数据 可 视 化 分 析 面 临 的 另外 一 个 挑战 就 是 对 数据 和 分 析 过 程 的 全 面 管控 。 各 类 开源 技术 的 涌现 使 得 人 们 可 以 任意 搭配 各 类 不 同 的 开源 技术 平台 对 数据 进行 可 视 化 分 析 ， 大 大 推动 了 
可 视 化 分 析 的 普及 。 可 是 各 类 开源 技术 经 常 不 能 够 很 好 地 集成 ， 因 而 导致 对 于 数据 和 分 析 过 程 缺 乏 有 效 的 管控 ， 这 会 随 之 而 来 增加 各 种 风险 ， 比 如 维护 成 本 、 管 控 成 本 和 合 规 风险 等 。 
在 企业 内 部 对 于 数据 进行 处 理 的 工具 经 常 是 多 样 的 ， 这 会 使 得 跟踪 数据 的 来 源 变 得 越发 复杂 ， 此 外 人 们 还 需要 知道 现在 正在 使 用 的 模型 是 哪 一 个 版 本 、 是 否 是 最 新 发 布 的 模型 以 及 是 否 
能 够 定期 对 模型 进行 更 新 。 所 有 这 些 都 表明 一 个 能 够 对 所 有 数据 和 整个 分 析 流 程 进行 管控 的 数据 可 视 化 分 析 平 台 是 十 分 必要 的 。 


数据 可 视 化 分 析 要 能 够 解决 整个 数据 分 析 生 命 周期 中 的 各 种 问题 。 完 整 的 数据 分 析 过 程 包括 数据 准备 、 数 据 探 索 、 数 据 变换 和 变量 选择 、 建 立 模型 、 验 证 模型 、 部 署 模型 及 持续 评 
估 和 监控 模型 表现 。 任 何 可 视 化 分 析 的 基础 都 是 高 质量 的 数据 ， 在 数据 准备 阶段 ， 数 据 可 视 化 分 析 要 求 能 够 获取 各 种 不 同类 型 的 数据 。 客 户 的 数据 可 能 以 多 种 形式 存储 ， 可 以 是 传统 的 
Excel 文 件 、 文 本 文件 、 关 系 型 数据 库 、 电 子 邮件 、 各 类 应 用 系统 、 网 页 、 社 交 媒 体 流 ， 也 可 以 是 Hadoop、Cassandra 等 分 布 式 存 储 系统 ， 数 据 可 视 化 分 析 要 能 够 帮助 用 户 通过 可 视 化 
的 界面 获取 各 种 不 同类 型 的 数据 ， 并 且 能 够 对 数据 进行 有 效 的 整合 。 


在 数据 探索 阶段 ， 需 要 有 可 视 化 的 界面 帮助 各 种 水 平 的 用 户 对 数据 进行 探索 。 用 户 可 以 借助 可 视 化 的 界面 和 各 种 不 同类 型 的 可 视 化 图 形 对 数据 进行 探索 性 分 析 ， 生 成 各 种 直观 的 报 
表 、 图 形 。 在 建立 模型 阶段 ， 对 于 不 擅长 编程 的 用 户 ， 数 据 可 视 化 分 析 平 台 也 应 该 提供 交互 式 的 界面 帮助 用 户 建立 各 种 预测 模型 。 借 助 可 视 化 的 界面 和 可 视 化 的 报表 、 图 形 ， 拥 有 不 同 
知识 水 平 的 人 员 都 可 以 充分 利用 数据 分 析 的 能 力 ， 得 到 并 且 分 享 数据 分 析 的 结果 。 


数据 可 视 化 分 析 平 台 还 应 该 提供 全 面 的 模型 存储 、 模 型 监控 、 模 型 执行 能 力 。 数 据 可 视 化 分 析 平 台 应 该 对 各 种 类 型 的 模型 提供 统一 的 模型 管理 界面 ， 用 户 只 需要 一 次 性 导入 模型 ， 
然后 就 可 以 在 各 种 不 同系 统 当中 使 用 该 模型 。 模 型 管理 界面 还 应 当 具 备 持续 的 模型 监控 能 力 ， 当 模型 的 表现 开始 出 现 明显 衰减 时 ， 建 模 人 员 可 以 得 到 提醒 进而 重新 训练 并 且 寻 找 冠 军 模 
型 。 可 视 化 数据 分 析 平 台 还 应 该 提供 完整 的 模型 执行 的 能 力 ， 各 种 模型 能 够 轻易 地 部 署 到 各 个 生产 环境 中 。 


1.4.2 SAS 的 可 视 化 分 析 实 现 


为 了 应 对 大 数据 时 代 的 可 视 化 分 析 挑 战 ，SAS 公 司 推出 了 新 一 代 的 高 性 能 内 存 分 析 平 台 。 该 平台 的 架构 易于 在 公有 云 、 私 有 云 以 及 其 他 操作 系统 安 六 部署 ， 因 此 具有 良好 的 可 扩展 
性 。 同 时 ， 该 平台 提供 了 基于 内 存 的 、 分 布 式 的 处 理 能 力 ， 可 以 让 多 个 用 户 同时 对 大 量 数 据 进 行 处 理 ， 解 决 复杂 的 分 析 问 题 。 该 平台 为 拥有 SAS 技 能 以 及 其 他 语言 技能 的 人 员 提 供 了 一 
个 开放 统一 的 平台 ， 拥 有 不 同 编程 语言 技能 的 人 都 可 以 借助 该 平台 解决 各 种 复杂 的 分 析 问 题 。 


SAS 推 出 的 统一 的 数据 可 视 化 分 析 平 台 有 具有 以 下 特点 ， 能 够 很 好 地 解决 大 数据 时 代 所 面临 的 数据 分 析 挑 战 。 


` 全 面 的 分 析 管 控 。SAS 新 一 代 可 视 化 数据 分 析 平 台 为 企业 级 的 数据 分 析 提 供 了 必要 的 管控 。 它 可 以 让 企业 对 独立 分 散 的 数据 分 析 流 程 进行 有 效 的 管理 ， 可 以 帮助 企业 内 部 的 数据 
分 析 人 员 管 理 各 种 不 同 语言 生成 的 模型 ， 同 时 帮助 IT 部 门 对 于 所 有 的 分 析 过 程 进 行 监 管 。 它 还 可 以 对 模型 版 本 、 模 型 权限 ， 数 据 源 等 信息 进行 统一 的 管理 ， 从 而 确保 企业 在 整个 分 析 流 
程 中 所 使 用 的 数据 、 模 型 和 结果 都 是 可 以 信赖 的 。 


可 以 信赖 的 分 析 结果 。 可 视 化 数据 分 析 的 结果 会 指导 商业 决策 ， 在 风险 、 坎 诈 和 网 络 安全 等 领域 ， 数 据 分 析 结 果 的 精准 性 至 关 重 要 。 从 简单 的 线性 回归 到 复杂 的 机 器 学 习 算 
法 ，SAS 提 供 了 广泛 的 经 过 各 个 领域 实际 验证 的 分 析 功 能 ， 这 些 分 析 功 能 经 过 严格 的 测试 ， 在 SAS 的 不 同 版 本 之 间 的 运行 结果 保持 一 致 。 


* 可 视 化 分 析 界 面 。SAS 新 一 代 的 可 视 化 分 析 平 台 提 供 了 友好 的 可 视 化 分 析 界 面 。 普 通用 户 可 以 通过 可 视 化 的 界面 进行 数据 准备 、 数 据 探索 以 及 模型 建立 ， 不 需要 了 解 编 程 语言 就 
可 以 使 用 SAS 强 大 的 数据 管理 和 数据 分 析 能 力 。 而 具有 编程 能 力 的 用 户 可 以 使 用 自己 所 习惯 的 语言 进行 编程 ，SAS 新 一 代 的 可 视 化 分 析 平 台 支 持 用 户 通过 Python、Java、R 或 者 Lua 语 言 去 
调用 SAS 强 大 的 数据 管理 和 数据 分 析 能 力 。 


" 人 人 可 以 使 用 数据 分 析 。SAS 新 一 代 的 可 视 化 分 析 平 台所 提供 的 自助 式 的 数据 准备 、 数 据 探索 、 模 型 建立 等 功能 可 以 让 企业 内 部 的 非 技 术 人 员 都 能 够 使 用 SAS 提 供 的 强大 分 析 能 
力 ， 将 数据 转化 成 为 可 以 信赖 的 决策 。 


. 模型 部 署 简 单 化 。SAS 新 一 代 的 可 视 化 分 析 平 台 提 供 了 对 于 各 种 语言 的 模型 进行 存储 、 执 行 和 监控 的 统一 平台 。 企 业 可 以 轻易 地 部 署 模型 ， 然 后 在 企业 内 部 的 不 同 生产 系统 中 调 
用 该 模型 。 

. 高 性 能 。SAS 新 一 代 可 视 化 数据 分 析 平台 所 采用 的 分 布 式 的 基于 内 存 的 架构 使 得 数据 处 理 的 速度 大 大 加 快 ， 以 往 需 要 几 个 小 时 运行 的 工作 采用 新 的 数据 分 析 平台 后 往往 几 分 钟 就 
可 以 得 到 结果 。 用 户 在 使 用 SAS 函 数 的 时 候 也 无 需 将 数据 从 Hadoop 中 进行 抽取 ，SAS 函 数 支持 在 Hadoop 内 部 运行 。 

借助 于 SAS 的 新 一 代 的 可 视 化 分 析 平 台所 拥有 的 技术 优势 ，SAS 采 用 不 同 的 产品 和 技术 去 满足 上 面 提 到 的 数据 分 析 的 8 个 不 同 层面 的 需求 。 


. SAS 可 视 化 分 析 (SAS Visual Analytics) 。 针 对 一 般 的 报表 和 钻 取 查 询 ，SAS 提 供 了 可 视 化 分 析 产 品 。SAS 可 视 化 分 析 借 助 SAS 基 于 内 存 的 分 析 引 擎 ， 支 持 从 不 同 的 数据 源 将 数据 加 
载 到 内 存 当 中 ， 快 速 检索 海量 的 数据 ， 并 且 最 终 以 报表 的 形式 展现 。SAS 可 视 化 分 析 分 为 三 个 模块 : SAS 可 视 化 数据 生成 器 (SAS Visual Data Builder) 、SAS 可 视 化 探索 器 (SAS Visual 
Analytics Explorer) 、SAS 可 视 化 设计 器 (SAS Visual Analytics Designet) 。SAS Visual Data Buildet 通 过 可 视 化 的 界面 为 业务 人 员 提 供 了 访问 不 同 数据 源 的 能 力 ， 用 户 可 以 访问 数据 库 当 中 
的 表 、 文 本 文件 、 存 储 在 Hadoop 当 中 的 数据 ， 并 且 将 这 些 数据 加 载 到 内 存 分 析 引 擎 中 。SAS Visual Analytics Explorer 允 许 用 户 对 加 载 到 内 存 中 的 数据 进行 交互 式 探索 ， 并 且 可 以 生成 各 种 
不 同 的 图 形 和 表格 。SAS Visual Analytics Designer 可 使 用 户 轻松 创建 各 种 不 同类 型 的 报表 和 仪表 盘 ， 这 些 报表 支持 过 滤 和 高 亮 这 样 的 交互 式 操 作 。 


. SAS 可 视 化 统计 (SAS Visual Statistics) 。SAS Visual Statistics 提 供 交 互 式 的 界面 ， 用 户 通 过 界面 可 以 快速 建立 预测 模型 。SAS Visual Statistics 充 分 利用 了 SAS 的 基于 内 存 的 分 析 引 
掌 ， 可 以 快速 地 对 大 量 数 据 进行 分 析 ， 允 许 用 户 在 短 时 间 内 对 多 个 模型 进行 开发 和 验证 。 用 户 可 以 方便 地 对 模型 进行 评估 ， 将 选 定 的 冠军 模型 投入 到 生产 环境 中 ， 最 终 让 分 析 模 型 落地 
的 时 间 大 大 缩短 。SAS Visual Statistics 针 对 预测 模型 可 以 进行 线性 回归 模型 、 还 辑 回归 模型 、 广 义 线性 模型 和 决策 树 模型 。 此 外 SAS Visual Statistics 还 提供 了 聚 类 模型 。 


. SAS 可 视 化 数据 挖掘 和 机 器 学 习 (SAS Visual Data Mining and Machine Learning， 简 称 SAS VDMML) 。SAS VDMML 给 用 户 提供 了 数据 挖 据 和 机 器 学 习 的 工具 。 它 集成 了 获取 数据 、 
数据 转换 、 特 征 工程 、 探 索性 数据 分 析 、 建 立 模型 、 比 较 模 型 和 生成 评分 代码 等 所 有 数据 挖掘 和 机 器 学 习 所 需要 的 功能 。 在 这 单一 平台 上 ， 用 户 可 以 针对 监督 学 习 和 非 监 督学 习 使 用 统 
计 学 方法 、 机 器 学 习 算 法 以 及 文本 分 析 算 法 。 它 提供 的 交互 式 的 界面 让 首 通 业务 人 员 可 以 同样 使 用 SAS 强大 的 高 级 分 析 功 能 。 


此 外 SAS 还 推出 了 基于 新 一 代数 据 分 析 平 台 的 通用 型 解决 方案 一 一 SAS 可 视 化 调查 (SAS Visual Investigator) 。 它 可 以 使 信息 分 析 人 员 和 调查 员 减 少 误 报 ， 简 化 调查 过 程 ， 打 击 
欺诈 行为 并 改善 客户 细 分 。SAS Visual Investigator 支 持 将 不 同类 型 、 大 小 和 位 置 的 数据 集中 起 来 ， 实 现 数 据 搜索 、 查 询 。 它 还 可 以 利用 高 级 分 析 方 法 对 事件 进行 风险 评估 ， 帮 助 调查 
人 员 将 精力 集中 在 高 风险 的 事件 上 ， 并 且 支 持 将 实体 间 关 系 进行 网 络 可 视 化 从 而 发 现 有 价值 的 隐藏 信息 。SAS Visual Investigator 可 以 广泛 应 用 在 各 个 领域 : 欺诈 探测 、 风 险 分 析 、 零 
售 损失 预防 、 机 器 性 能 监控 。 


1.5 本章 小 结 


本 章 介绍 了 数据 可 视 化 分 析 的 含义 、 意 义 以 及 近 些 年 逐渐 兴起 的 背景 ， 同 时 明确 了 数据 可 视 化 分 析 可 以 在 数据 分 析 的 每 个 阶段 发 挥 积极 的 作用 ， 并 且说 明了 数据 可 视 化 分 析 不 仪 仅 
只 是 报表 ， 还 应 该 包含 高 级 分 析 。 本 章 最 后 探讨 了 可 视 化 分 析 所 面临 的 各 类 挑战 以 及 SAS 如 何 应 对 这 些 挑 战 。 


第 2 草 SAS 可视化 分 析 技 术 概 述 


在 第 1 章 介绍 了 数据 可 视 化 分 析 的 基本 概念 和 数据 分 析 的 一 般 过 程 ， 以 及 在 大 数据 背景 下 ， 数 据 分 析 和 数据 可 视 化 分 析 所 面临 的 挑战 。 


接 下 来 ， 将 介绍 SAS 可 视 化 分 析 的 平台 基础 、SAS 可 视 化 分 析 家 族 的 产品 和 SAS 数 据 可 视 化 分 析 的 技术 及 实现 。 


2.1 ”SAS 数据 可 视 化 分 析 的 平台 基础 


可 视 化 分 析 技 术 和 产品 的 实现 必须 基于 恰当 的 平台 以 满足 其 计算 性 能 、 可 扩展 性 以 及 可 靠 性 的 要 求 。 


SAS 可 视 化 分 析 产 品 家 族 中 的 SAS Visual Analytics 可 以 基于 SASs 的 LASR 分 析 服 务 器 和 SAS CAS 服 务 器 来 实现 。SAS CAS 服 务 器 是 SAS Viya 平 台 的 核心 分 析 引 警 。SAS 的 LASR 分 析 
服务 器 是 基于 SAS9.4 的 高 性 能 分 析 引 警 。SAS 的 LASR 分 析 服 务 器 和 SAS CAS 服 务 器 的 共同 之 处 就 是 可 以 对 数据 进行 大 规模 并 行内 存 分 析 处 理 。 


SAS LASR 分 析 服 务 器 为 多 用 户 并 发 访问 和 分 析 已 经 加 载 到 内 存 中 的 数据 提供 了 一 个 安全 的 分 析 平 台 。SAS Visual Analytics 7.4 和 SAs Visual Statistics 7.3 及 它们 之 前 的 版 本 都 是 
以 SAS LASR 服 务 器 作为 分 析 引 擎 的 。 该 服务 器 有 分 布 式 和 非 分 布 式 两 种 部 署 架构 。 分 布 式 部 署 的 LASR 分 析 服 务 器 利用 分 布 式 高 性 能 计算 环境 ， 可 以 在 多 个 机 器 之 间 分 配 数 据 和 工作 负 
载 ， 并 执行 大 规模 并 行 处 理 。LASR 服 务 器 将 表 加 载 到 内 存 中 进行 分 析 处 理 ， 通 过 硬件 和 软件 的 最 佳 组 合 ， 使 业务 分 析 人 员 可 以 快速 探索 数据 并 上 友 现 数据 中 的 关系 ， 生 成 分 析 结 果 ， 实 
现 对 客户 的 快速 响应 。 关 于 LASR 服 务 器 的 两 种 部 署 方式 ， 详 细 请 参阅 第 8 章 。 


而 SAS Viya 是 一 种 全 新 的 开放 式 并 且 云 就 绪 的 内 存 分 析 平 台 ， 支 持 多 用 户 和 复杂 的 分 析 任 务 ， 可 在 私有 云 和 公共 云 环 境 下 灵活 扩展 。 在 SAs Viya 集 成 环境 下 ， 分 析 团 队 可 以 自行 
选择 采用 可 视 化 界面 或 者 采用 第 三 方 开发 语言 调用 平台 本 身 提供 的 分 析 功 能 。SAS Visual Analytics 8.1、SAS Visual Statistics 8.1、SAS Visual Investigator 和 SAS Visual Data 
Mining and Machine Learning (缩写 SAS VDMML) 及 后 续 版 本 会 全 部 基于 SAS Viya 平 台 。 


SAS Viya 平 台 由 多 个 组 件 组 成 ， 其 核心 为 CAS 内 存 分 析 服 务 器 。 


CAS (Cloud Analytic Services) 与 SAS LASR 分 析 服 务 器 一 样 ， 都 是 分 布 式 多 线程 的 高 性 能 分 析 引 擎 ， 都 有 非 分 布 式 和 分 布 式 两 种 部 署 模 式 。CAS 相 对 LASR 分 析 服 务 器 ， 具 有 诸 
多 优点 。 其 优点 之 一 是 分 布 式 CAS 具 有 支持 容错 的 通信 层 。 即 使 在 失去 与 某 些 节点 的 连接 之 后 ， 分 布 式 CAS 也 可 以 继续 处 理 请 求 。 通 信 层 还 能 让 用 户 在 CAS 运 行 时 从 中 删除 或 添加 节 
点 。CAS 在 设计 时 还 扩展 了 运营 目标 。 不 仪 支持 SAS 开 发 语言 ， 而 且 提 供 开 放 的 APl， 可 以 使 用 其 他 开发 语言 例如 Java、Python、Lua 和 R 调 用 CAS 提 供 的 分 析 功 能 。 


关于 SAS Viya 平 台 的 更 多 内 容 ， 请 参阅 《SAS Viya》 一 书 。 


2.2 SAS 可 视 化 分 析 家 族 成 员 、 主 要 功能 和 相互 联系 


SAs 的 数据 可 视 化 分 析 实 现 了 数据 分 析 的 可 视 化 ， 让 用 户 能 够 探索 、 分 析 数 据 ， 获 得 有 价值 的 可 用 来 做 出 决策 指导 实际 行动 的 信息 ， 并 把 这 些 信息 以 直观 、 便 捷 和 灵活 生动 的 形式 
进行 了 展现 和 共享 。 SAS 的 可 视 化 分 析 主 要 有 如 下 特点 : 


包含 数据 可 视 化 最 佳 实践 的 高 度 互动 图 形 。 具 有 丰富 的 可 视 化 视图 供用 户 选 择 ， 并 能 够 识别 和 解释 变量 之 间 的 关系 ， 且 使 用 最 适合 所 选 数据 类 型 的 图 形 来 呈现 数据 。 


" 具有 综合 、 直 观 、 易 于 使 用 的 分 析 功 能 。 能 够 消除 数据 结构 对 非 技 术 用 户 的 复杂 性 ， 使 得 他 们 能 够 专注 于 在 数据 中 探索 和 寻找 规律 、 趋 势 和 相关 性 ; 可 通过 在 包含 任意 数量 层级 
体系 的 多 维 数据 中 运用 过 滤 功 能 来 切片 和 切 块 多 维 数据 ; 在 多 维 数据 中 按照 层级 体系 中 的 层级 路 线 上 钼 、 下 钻 或 者 展开 和 收缩 数据 和 信息 ， 计 算 新 度量 指标 并 将 其 添加 至 任何 视图 ， 以 
及 将 视图 另存 为 报表 ， 以 便 与 他 人 共享 。 


:方便 构建 友好 的 报表 。 拥 有 基于 Web 的 交互 式 界面 ， 以 便 用 户 能 够 在 创建 可 视 化 内 容 之 前 轻松 进行 预览 、 过 滤 或 抽样 。 
分 布 式 内 存 (In-memory) 处 理 。 基 于 分 布 式 计算 平 台 ， 支 持 多 用 户 和 复杂 的 分 析 任务 。 计 算 处 理 可 在 单 服务 器 内 核 或 计算 集群 节点 之 间 自 动 分 布 。 


此 外 ，SAs 的 数据 可 视 化 技术 会 按照 标准 的 数据 治理 规则 实施 企业 级 的 用 户 身份 验证 和 信息 授权 策略 ， 支 持 根据 所 需 更 新 的 数量 与 频率 以 及 可 扩展 性 要 求 对 内 人 存 服务 器 进行 数据 指 
配 (Data Provisioning) ， 以 及 为 IT 管理 任务 提供 基于 Web 的 界面 。 这 使 得 IT 人 员 婚 能 沿用 其 现 有 的 习惯 做 法 ， 又 同时 能 够 保证 对 数据 和 安全 的 控制 ， 达 到 易于 部 署 和 管理 的 目的 。 


SAS 可 视 化 分 析 家 族 成 员 目 前 包括 SAS Visual Analytics、SAS Visual Statistics、SAS Visual Investigator 和 SAS VDMML 等 。 下 面 将 逐一 做 出 介绍 。 


2.2.1 SAS 可 视 化 分 析 


SAS 可 视 化 分 析 (SAS Visual Analytics) 利用 SAS 高 性 能 分 析 技 术 ， 帮 助 组 织 机 构 快 速 地 探索 大 数据 ， 以 确定 进一步 分 析 的 模式 、 趋 势 和 机 会 。 用 户 能 够 总 结 数据 、 连 接 数 据 并 增 
强 数据 的 预测 能 力 ， 快 速 、 轻 松 地 对 数据 进行 连接 、 汇 总 和 进一步 处 理 ， 进 而 对 数据 进行 探索 和 挖 扎 。 可 视 化 的 探索 器 与 SAS 的 分 析 服 务 器 的 结合 ， 加 快 了 分 析 计 算 的 速度 和 易 用 性 ; 
而 报表 设计 器 可 快速 创建 报告 和 仪表 板 ， 使 组 织 机 构 能 够 从 大 量 数 据 中 迅速 获取 分 析 结 果 。 图 2-1 是 SAS Visual Analytics 7.3 的 主要 组 件 及 功能 。 它 具有 如 下 一 些 特 性 。 
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图 2-1 SAS Visual Analytics 7.3 的 主要 功能 
. 单一 应 用 程序 支持 BI、 数 据 探 索 和 分 析 : 设计 和 分 发 BI 报告 和 仪表 前 ， 通 过 交互 式 数 据 可 视 化 和 分 析 探 索 数 据 ， 所 有 这 些 功 能 都 集成 在 一 个 应 用 程序 里 。 
` 创新 的 可 视 化 技术 : 以 最 具 洞 察 力 的 方式 展示 数据 和 结果 ， 通 过 自动 绘图 提供 一 系列 先进 的 数据 可 视 化 技术 和 向 导 式 分 析 。 


* 易于 使 用 的 强大 分 析 能 力 : 精心 设计 的 分 析 功 能 ， 如 预报 、 目 标 搜索 、 场 景 分 析 、 决 策 树 、 路 径 分 析 和 其 他 的 技术 ， 让 每 个 人 都 可 以 轻松 地 自行 创建 分 析 可 视 化 ， 无 须 学 习 新 的 
技能 或 要 求 IT 部 门 的 帮助 。 


` 自动 绘图 : 自动 为 用 户 数据 选取 最 佳 图 形 ， 让 用 户 的 探索 有 一 个 好 的 开始 。 

` 与 地 理 信 息 技 术 的 集成 : 集成 的 地 图 技术 提供 了 对 地 理 空间 数据 的 快速 了 解 ， 在 报表 中 可 轻松 增加 地 理 信息 。 

` 交互 式 图 表 、 仪 表盘 和 报表 : 每 个 人 都 能 够 从 任何 大 小 和 类 型 的 数据 得 到 洞 

- 稳健 的 报表 设计 : 一 旦 设计 完 报 告 ， 就 可 以 发 布 到 任何 地 方 。 

协作 与 第 三 方 集成 : 与 AS 科 学 分 析 包 和 Microsoft Office 应 用 软件 集成 ， 让 用 户 可 以 访问 动态 图 表 和 报告 。 

“ 移动 BI: 通过 iOS、Android 平 板 电 脑 和 智能 手机 的 移动 BI 应 用 ， 可 以 查看 动态 的 报表 和 仪表 盘 ， 以 及 交互 和 协同 工作 。 


SAS 可 视 化 分 析 不 仪 能 为 企业 组 织 内 所 有 进行 数据 发 现 和 探索 的 人 员 提 供 支 持 ， 还 为 |T 人 员 提 供 了 一 种 简单 的 方法 来 管理 数据 和 系统 。 如 果 SAS 可 视 化 分 析 中 包含 有 SAS 可 视 化 统 
计 许 可 ， 那 么 用 户 同时 能 够 快速 创建 强大 的 统计 模型 。 


2.2.2 SAS 可 视 化 统计 


SAS 可 视 化 统计 (SAS Visual Statistics) 提供 了 完整 的 分 析 和 建 模 功能 ， 可 以 让 多 用 户 对 海量 数据 进行 分 析 ， 并 以 交互 的 方式 创建 分 析 模 型 。 它 的 模型 评估 和 比较 功能 可 以 评估 
两 个 或 多 个 模型 彼此 的 相对 性 能 ， 并 选择 冠军 模型 。 用 户 还 能 为 创建 的 模型 导出 模型 评分 代码 ， 将 该 模型 应 用 于 新 的 数据 中 。 图 2-2 是 SAS Visual Statistics 7.3 的 主要 功能 。 它 具有 如 
下 一 些 特性 。 
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图 2-2” SAS Visual Statistics 7.3 的 主要 功能 


. 交互 式 的 数据 可 视 化 和 数据 探索 ; 它 提供 了 非常 易 用 的 数据 处 理 和 数据 可 视 化 的 探索 功能 。 可 以 通过 对 成 二 上 万 个 变量 进行 分 析 ， 发 现 重要 的 预测 变量 ， 并 交互 式 地 发 现 异 常 值 
和 数据 差异 。 还 可 基于 这 些 信息 ， 在 交互 式 环境 中 进行 建 模 。 


` 建立 分 析 模 型 : SAS 可 视 化 统计 可 以 使 用 线性 回归 、 广 义 线性 模型 、 逻 辑 回 归 和 决策 树 等 各 类 算法 ， 来 为 不 同 的 分 析 需 求 构 建 相应 的 预测 模型 。 例 如 分 类 算法 可 以 预测 离散 的 目 
标 值 ， 例 如 坎 诈 或 非 欺 诈 、 违 约 或 非 违约 等 。 多 水 平分 类 可 以 帮助 分 析 师 确定 哪些 人 会 主动 流失 、 哪 些 会 被 动 流失 ， 以 及 哪些 人 不 会 流失 。 


* 模型 的 比较 与 评估 : 生成 模型 比较 汇总 信息 ， 例 如 提升 图 、ROC 图 、 一 致 性 统计 和 误 分 类 率 等 评价 指标 。 交 互 式 的 滑 块 让 分 析 师 可 以 自行 定义 截止 阅 值 ， 轻 松 地 对 不 同 分 位 数 来 
评估 模型 提升 。 将 模型 拟 合 与 模型 诊断 相 结 合 ， 快 速 查 看 和 了 解 对 性 能 的 影响 。 


* 模型 评分 : 将 模型 导出 为 Base SAS 数 据 步 代码 ， 并 应 用 到 新 的 数据 上 。 


SAS 可 视 化 统计 工具 主要 是 为 统计 师 、 数 据 科 学 家 和 业务 分 析 师 而 设计 的 ， 他 们 需要 分 析 复 杂 的 数据 ， 交 互 式 地 创建 和 评估 预测 模型 ， 检 验 新 的 想法 ， 随 时 对 模型 进行 调 优 ， 友 现 
新 的 业务 机 会 ， 制 定 出 最 佳 的 决策 。 


本 书 第 6 章 将 对 SAS 可 视 化 统计 技术 进行 进一步 的 阐述 


2.2.3 ”SAS 可视化 调 埋 


SAS 可 视 化 调查 (SAS Visual Investigator) 是 基于 SAS Viya 的 调查 和 事件 管理 解决 方案 ， 可 以 处 理 大 量 不 同 的 结构 化 和 非 结构 化 数据 源 。 用 户 可 定义 、 创 建 、 配 置 并 管理 报警 
以 便 进行 详细 调查 ， 还 可 通过 自 定义 框架 满足 个 人 和 部 门 的 需求 。 图 2-3 是 SAS Visual Investigator 10.2.2 的 主要 功能 。 下 面 是 它 的 一 些 特 性 。 
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生成 车 报 上 年 学 实体 分 析 交互 式 工作 区 


警报 汇总 和 分 类 包括 自由 文本 和 地 理 空 四 。 自动 建立 网 络 并 分 解 收集 、 探 索 并 分 析 相 
间 的 多 种 搜索 实体 关 的 调查 数据 
筛选 并 提炼 结果 基于 最 新 文件 和 数据 
事件 可 视 化 (网 络 视图 、 国 确定 社区 
习 、 时 间 表 等 ) 


SASOVIYA eA 


图 2-3 SAS Visual Investigator 10.2.2 主 要 功能 


` 报警 和 事件 管理 : 提供 全 面 决策 管理 功能 ， 通 过 部 署 高 级 分 析 模 型 、 业 务 规则 、 场 景 或 集成 第 三 方 系统 (往来 通信 ) ， 发 现 并 触发 报警 和 重要 事件 。 利 用 报警 和 事件 管理 功能 
可 以 排 定 报警 优先 级 ， 还 可 以 以 不 同 的 方式 查看 报警 情况 ， 了 解 背 景 情况 ;通过 添加 实体 ， 整 合 关联 数据 可 强化 报警 ， 可 设 定 报警 上 报 优 先 级 或 改变 优先 级 ;还 能 指定 提示 哪些 是 需要 


深入 调查 的 报警 。 


` 搜索 并 观察 警报 : 以 自由 文本 或 地 理 空间 方式 利用 搜索 功能 查找 与 调查 相关 的 所 有 数据 (来自 内 部 或 外 部 数据 源 ) 。 然 后 ， 利 用 交互 式 过 滤 功 能 筛选 搜索 结果 ， 也 可 以 基于 字段 
搜索 特定 实体 类 型 ， 并 以 不 同方 式 显示 搜索 结果 ， 帮 助 调查 发 现实 体 、 解 析 实 体 及 其 关系 的 相关 信息 ， 并 启动 相应 动作 。 


. 实体 分 析 : 具有 独特 的 交互 式 实体 解析 功能 ， 有 助 于 分 析 师 掌握 最 准确 的 复杂 关系 背景 。 实 体 分 析 功 能 会 显示 实体 间 的 紧密 程度 、 因 果 关 系 以 及 对 潜在 重要 领域 的 影响 ， 从 而 为 
情报 分 析 师 提供 支持 和 指导 。 还 可 以 查看 人 员 、 地 点 、 物 体 和 事件 随 着 时 间 在 多 个 维度 中 构成 的 复杂 网 络 关系 ， 有 助 于 分 析 师 以 交互 方式 识别 不 明显 的 关系 ， 横 向 查询 复杂 关系 ， 发 现 
模式 和 社区 。 此 外 ， 分 析 师 还 能 通 浏览 器 以 交互 方式 查看 整个 社交 网 络 。 他 们 可 以 根据 需要 扩大 或 缩小 网 络 范围 ， 探 索 社区 和 个 人 关系 ， 处 理 网 络 布局 ， 并 且 可 以 利用 开发 的 洞察 快 有 
和 剪辑 ， 与 其 他 调查 人 员 协 作 并 记录 发 现 的 结果 。 


: 交互 式 工 作 区 : 支持 分 析 师 协作 、 合 规 并 提高 效率 。 交 互 式 可 视 化 搜索 组 件 能 帮助 分 析 师 建立 、 收 集 、 发 据 、 显 示 和 处 理 调查 或 研究 相关 的 数据 。 他 们 可 将 静态 视频 剪辑 添加 到 
洞察 模块 中 ， 描 述 地 图 、 时 间 表 、 网 络 和 其 他 内 容 。 此 外 ， 用 户 还 可 以 通过 自助 服务 功能 进行 专用 数据 导入 、 分 析 、 检 索 和 显示 数据 ， 并 且 可 以 打印 生成 的 洞察 。 


SAS Visual Investigator 可 以 用 于 需要 防范 欺诈 和 洗钱 活动 的 银行 和 金融 机 构 、 打 击 恐 怖 主义 和 犯罪 活动 的 国家 安全 部 门 和 执法 机 构 、 开 展 调查 的 律师 事务 所 ， 以 及 防止 疾病 暴发 
的 医院 和 公共 卫生 组 织 。 


为 应 对 日 益 增长 的 复杂 性 ， 情 报 分 析 师 必须 提高 效率 ， 快 速 识别 报警 和 整个 网 络 中 的 异常 情况 。 需 要 发 现 隐 藏 行为 和 活动 的 企业 ， 可 利用 SAS Visual Investigator 进 行 深入 调查 ， 
在 企业 内 部 分 享 调查 结果 ， 从 而 优化 团队 协同 能 


本 书 第 7 章 将 对 SAS 可 视 化 调查 技术 进行 进一步 的 阐述 


2.2.4 ” SAS 可视化 数据 挖 据 和 机 器 学 习 
SAS 可 视 化 数据 挖掘 和 机 器 学 习 (SAS Visual Data Mining and Machine Learning,， 缩写 SAS VDMML) 基于 SAS Viya 平 台 和 SAS Visual Analytics 中 上 友 现 的 模式 ， 采 用 经 典 传 
统 的 分 析 算 法 和 最 新 兴起 的 机 器 学 习 等 多 种 算法 来 创建 、 测 试 和 比较 模型 。 


SAS VDMML| 将 数据 整理 、 数 据 探 查 、 可 视 化 、 特 征 工 程 与 现代 统计 、 数 据 挖掘 和 机 器 学 习 技 术 ， 全 部 结合 在 了 单一 可 扩展 的 内 存 处 理 环境 中 ， 更 加 快速 准确 地 解决 了 复杂 业务 问 
题 ， 并 且 提 供 了 灵活 的 系统 部 署 ， 可 建立 易于 管理 的 IT 环境 。 图 2-4 是 SAs VDMML 3.2 的 主要 功能 。 下 面 是 它 的 一 些 特性 。 


. 基于 Web 的 分 布 式 内 存 计算 的 编程 环境 : SAS Studio 交 互 式 图 形 界面 支持 完整 的 机 器 学 习 步 骤 ， 从 数据 准备 到 建 模 、 评 估 和 评分 ， 并 可 以 对 数据 、 代 码 和 最 佳 实 践 进行 共享 。 
. 数据 准备 : 可 以 进行 数据 加 载 、 并 对 数据 进行 基本 的 分 析 和 理解 ， 例 如 生成 多 种 分 析 指 标 等 。 
. 数据 探索 和 数据 修正 : 利用 描述 性 统计 和 可 视 化 编程 功能 发 现 和 修复 数据 问题 ， 快 速 识别 潜在 的 预测 因子 ， 并 轻松 提炼 出 原始 数据 的 新 特征 。 


` 现代 统计 、 数 据 挖 掘 和 机 器 学 习 技 术 : 采用 无 监督 和 有 监督 学 习 算法 ， 如 肾 类 、 主 成 分 分 析 、 线 性 和 非 线 性 回归 、 逻 辑 回 归 、 决 策 树 ， 随 机 森林 、 梯 度 提升 、 神 经 网 络 、 因 子 分 
解 机 和 支持 向 量 机 等 ， 对 结构 化 和 非 结构 化 数据 进行 分 析 ， 确 定 最 佳 模 型 。 
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图 2-4 SAS VDMML 3.2 主 要 功能 


自动 寻 优 建 模 : 在 建 模 的 过 程 中 ， 自 动 对 模型 的 参数 和 结构 进行 智能 调整 ， 以 建立 最 佳 的 模型 。 可 以 使 用 18 种 不 同 的 模型 评估 指标 作为 调 优 标 准 ， 并 使 用 验证 分 区 或 内 置 交叉 验 
证 机 制 进行 评估 。 


` 模型 评估 和 评分 : 确定 最 佳 模型 ， 并 生成 模型 的 SAS 评 分 代码 。 


SAS VDMM 上 是 为 数据 科学 家 、 资 深 统计 师 、 数 据 挖 气 人 员 、 工 程 师 、 研 究 员 和 科学 家 而 设计 的 。 该 解决 方案 可 帮助 数据 科学 家 和 其 他 人 员 解 决 过 去 难以 解决 的 业务 问题 ， 消 除 因 
数据 量 大 小 、 数 据 多 样 性 、 分 析 深 度 和 计算 瓶颈 等 带 来 的 障碍 。 


本 书 暂 不 对 该 产品 和 技术 做 详细 介绍 。 


2.2.5 ”相互 联系 


SAS Visual Analytics、SAS Visual Statistics、SAS Visual Investigator 和 SAS VDMML 是 SAS 可 视 化 分 析 家 族 面向 不 同 需求 的 产品 和 技术 。 这 些 产品 和 技术 可 以 单独 使 用 ， 也 可 
以 集成 使 用 。 


2.3 ”SAS 可视化 分 析 功 能 概述 

SAS 可 视 化 分 析 (SAS Visual Analytics) 是 SAS 可 视 化 分 析 系列 产品 中 的 重要 成 员 ， 同 时 也 是 本 书 的 重点 之 一 。 在 这 里 首先 简单 介绍 其 四 个 最 核心 的 功能 模块 ， 本 书后 面 还 将 进行 
深入 的 介绍 。 
2.3.1 数据 导 


更 多 的 数据 ， 特 别 是 更 多 不 同 来 源 的 数据 ， 能 帮助 数据 分 析 师 找到 数据 之 间 更 好 的 相关 性 ， 建 立 更 好 的 模型 ， 做 出 更 有 价值 的 决策 。SAS 可 视 化 分 析 通 过 直观 友好 的 用 户 交互 界 
面 ， 可 以 将 多 种 数据 源 的 数据 导入 SAs 服 务 器 中 。 


在 SAS Visual Analytics 7.3 的 数据 准备 模块 (Visual Data Builder) 中 ，SAS 根 据 数据 的 来 源 ， 设 定 了 相应 的 导入 接口 (如 图 2-5 所 示 ) ， 人 允许 用 户 自 由 指定 导入 位 置 和 逻辑 库 ， 
并 且 在 导入 前 可 以 预览 数据 内 容 。 图 2-6 是 导入 本 地 SAs 数 据 集 的 对 话 框 。 关 于 SAs 逻 辑 库 和 数据 集 的 知识 介绍 ， 请 参阅 《深入 解析 SAs》 一 书 。 
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图 2-5 导入 多 种 数据 源 


导 A_ sa3 数据 和 集 x 
源 交 性 
;斩首 握 焦 : amlaler222,sasTbdat | 浏 呈 。。 。 


重出 表 


名 和 各: 尝 | amlaler222 


说明: “| 于 22017 年 ?月 11 加 旦 期 二 GTHOSDO 上 干 D8 时 349 号 -30 入 


由 "sasdemo” 从 “amlaler222. sasTbdat” 守 内 





(ne /shared Datali3as Visual nalvtics/Public/LiSR ] 甸 


李 辑 库 : Products/Sh5 Marketine Optimization/Data sources /Narke 百 ， 


| 人 恨 显 十 543 LaSR imalytic Server 地 辑 库 


| 压 锯 数据 《对 于 寻 六 的 表 ， 


图 2-6 ”导入 SAS 数 据 集 


管理 器 是 SAS 提 供 的 管理 窗口 ， 可 对 所 有 导入 SAS LASR 服 务 器 中 的 表 进 行 管理 ( 见 图 2-7) 。 用 户 能 够 实时 查看 表 的 状态 、 大 小 、 位 置 、 所 属 服务 器 和 加 载 时 间 ， 还 可 以 根据 需求 
随时 删除 、 外 载 或 重新 加 载 表 ， 设 置 表 的 授权 。 





LASR 服务 器 * 





X | 转台 -SaPLE_WaFRANTY cLaADIS《 只 读 ) 








4 间 | 家 @ 出 曾 ， [选项 上 初始 化 时 获 职 状态 职 消 |Table | (导轨 冯 了 

MM 表 状态 太 人 小 上 位 置 服务 器 已 加 载 行 列 逻辑 库 修改 时 间 ”加 载 者 LASR 名 称 
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IJ SASLOGICALSERVERS 国 /Shared Data/SAS Visual Analytics/Au... LASR analytic Server - rdc... Environ... EVDM. SASLOGICALSER. .. 
I™ TCSSERVERMGRS 转 /Shared Data/SAS Visual Amnalytics/Buy... LASR analytic Server - rdc... Eniiron... EVDM. TCSSERVYERMGRS 
Iv WEBAPPSERVER 国 /Shared Data/SAS Visual Mnalytics/Au... LASR analytic Server - rdc... Enniron... EVDM. WEBAPP SERVER 

[|Y] WIPDATADE 国 /Shared Data/SAs Visual malytics/Buy... LASR unalytic Server - rdc... Eniron... EVYDM. WIFDATADE 

















[IV | VA_SANPLE_ACHE_PANE 各 256. 29 了 /AproductsySaS Visual analyticsySanples Public LASR imalytic Serve... 2017-07-04 上 午 03:31 399, 920 66 VYisual ... 2017-07... sasdemo VAPUBLIC. YA_SANPLE. .. 
[IV Va_SANMPLE_CASINO REV_F... 多 1.28 WE /Products/SAS Visual analyticsySamples Public LASR unalytic Serve... 2017-07-04 上 午 03:31 7, 306 17| Visual ... | 2017-07... | sasdemo VAPUBLIC. VA_SANPLE. .. 
[IV Va_SANMPLE_Kl12_STUDENT 全 10. 39 ] 加 AproductsySaS Visual bmnalytics/Samples Public LASR imalytic Serve... 2017-07-04 上 午 03:31 40, 087 25 Yisual ... 2017-07... sasdemo VAPUBLIC. YA_SANMPLE... 
|V| Va_ SAMPLE_RETAIL_RO_CO. . 。 入 22.83 WE /Products/SAS Visual nalytics/Samples Public LASR imalytic Serve,.. 2017-07-04 上 午 03:31 la a bi 36| Yisual ... | 2017-07... | sasdemo VAPUBLIC. VA_ SANMPLE. . 。 
|VY] Va_SANPLE_RETAIL RO_ID... 六 106.43 了 /Products/SAS5 Visual nalytics/Samples Public LASR unalytic Serve... 2017-07-04 上 午 03:32 53,045 39 Visual ... 2017-07... sasdemo VAPUBLIC. VA_SANMPLE. . 。 
[IV | Ya_SAMPLE_RETAIL RO_PR.., 已 125.03 EB /Products/SAS Visual analyticsySanples Public LASR malytic Serve... 2017-07-04 上 午 03:32 165 38| Yisual ... | 2017-07... | sasdemo VAPUBLIC. YA_SAMPLE... 
|IVY] Va_SANPLE_TELCOOS 的 211.47 了 /Products/SAS Visual malytics/Samples Public LASR unalytic Serve... 2017-07-04 上 午 03:32 249, 710 T8 Visual ... 2017-07... sasdemo VAPUBLIC. VA _ SAMPLE... 
[IV) | Va_SANMPLE WARRANTY CLAIM 加 277.57 WB /Products/SAS Visual Mnalytics/Samples Public LASR malytic Serve... 2017-07-04 上 午 03:33 428,027 42| Visual ... | 2017-07... | sasdemo VAPUBLIC. YA_SAMPLE... 
[IV] | CLASS 名 912.00 字 节 /Shared DataySaS Visual imalytics/Pu... Public LASR analytic Serve... 2017-07-04 上 午 03:33 19 5| Visual ... 2017-07... | sasdemo VAPUBLIC. CLASS 

|V] CaRS 国 /Shared Data/SAS Visual malytics/Pu... LASR analytic Server - rdc... Mistal HFS. CARS 


图 2-7 时 入 表 的 管理 界面 


2.3.2 ”数据 处 理 


为 了 保证 数据 质量 ， 在 数据 分 析 前 ， 需 对 数据 进行 预 处 理 。 在 SAs Visual Analytics 7.3 的 数据 准备 中 ， 通 过 交互 的 可 视 化 界面 就 可 以 根据 业务 需求 指定 连接 条 件 ， 并 为 指定 列 设 
置 聚合 函数 、 添 加 新 列 等 。 使 用 过 滤 数 据 功 能 ， 用 户 可 以 选择 表 中 的 任何 列 ， 随 时 查看 过 滤 后 该 列 的 唯一 值 。 图 2-8 是 查看 列 EVENT_TYPE_CODE 的 唯一 值 的 示意 图 ， 选 择 复 选 框 以 指 
定 要 包括 在 过 滤器 中 的 值 。 

在 执行 数据 查询 前 ， 可 使 用 预览 功能 ， 如 图 2-9 所 示 ， 这 样 就 能 提前 看 到 生成 的 结果 是 否 是 满意 的 数据 ， 如 果 不 满意 ， 可 以 重新 设置 ， 直 至 符合 需求 后 再 运行 ， 生 成 输出 数据 表 。 


竺 择 “EWENT TYPE CODE” 日] 值 
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5 LoeT la2811] FCFEUl 点 Ji LoeT S10 S19 LIN Usa... 
| LoeT la2811] FCFEUl 点 Ji LoeT S10 S19 LIN Usa... 


图 2-9 ”结果 预览 功能 


2.3.3 ”数据 分 析 


在 数据 分 析 阶 段 ，SAs 通 过 易 用 的 交互 界面 ， 对 数据 进行 灵活 高 效 的 分 析 。 


SAS Visual Analytics 中 提供 了 21 种 可 视 化 视图 和 分 析 方 法 ( 表 、 交 叉 表 、 条 形 图 、 线 图 、 散 点 图 、 气 泡 图 、 饼 图 、 网 络 图 、Sankey 流 程 图 、 直 方 图 、 合 形 图 、 热 图 、 地 图 、 和 矩形 
树 图 、 相 关 和 矩阵 、 词 云 、 决 策 树 、 线 性 回归 、logistic 回 归 、 广 义 线性 模型 和 聚 类 ) ， 它 支持 对 结构 化 、 半 结构 化 和 非 结构 化 数据 的 可 视 化 分 析 。SAS 在 每 一 种 方法 中 ， 都 设置 了 多 种 
功能 ， 用 户 根据 需要 ， 通 过 简单 的 设置 就 可 以 应 用 到 分 析 中 。 下 面 是 几 个 简单 的 例子 。 


在 条 形 图 中 提供 的 预览 图 功能 ， 可 以 对 局 部 进行 放大 ， 同 时 也 支持 在 这 个 预览 图 上 滚动 浏览 ， 并 且 可 以 控制 放大 比例 。 图 2-10 就 是 增加 了 预览 功能 的 条 形 图 。 
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图 2-10 ”可 局 部 放大 的 预览 功能 


词 云 视图 实现 了 对 非 结构 化 数据 的 可 视 化 ， 如 图 2-11 所 示 ， 选 择 不 同 的 主题 ， 可 查看 该 主题 中 出 现 最 多 的 词汇 ， 文 字 的 大 小 代表 这 段 文 字 在 文本 中 出 现 的 频率 。 


鸡 | "| 可 视 化 视图 2 5_ x 
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图 2-11 展现 文本 中 文字 出 现 的 频率 


网 络 图 实现 了 对 半 结 构 化 或 非 结构 化 数据 的 可 视 化 ， 在 图 2-12 中 ， 显 示 了 该 工厂 各 个 城市 的 费用 ， 球 体 大 小 表示 人 员 费 用 ， 球 体 颜色 表示 使 用 人 员 数 量 ， 连 线 的 宽度 表示 收益 的 
多 少 ， 连 线 颜色 表示 材料 费用 。 





图 2-12 ”网 络 图 ( 附 彩 图 ) 


SAS Visual Analytics 提 供 了 强大 的 数据 过 滤 功 能 ， 让 信息 的 精炼 变 得 更 加 简单 。 用 户 只 需 简单 确定 某 个 变量 或 直接 选择 已 经 显示 的 某 个 值 ， 就 可 以 进行 数据 的 选择 或 排除 。 柱 状 
图 能 够 很 好 地 可 视 化 数据 的 分 布 ， 并 人 在 针 对 特定 变量 进行 数据 过 滤 时 提供 线索 ， 告 诉 用 户 过 滤 后 数据 会 如 何 变化 。 图 2-13 中 ， 碍 看 了 在 2000 年 4 月 8 日 到 2001 年 12 月 31 日 期 间 ， 加 拿 大 
地 区 的 产品 销售 额度 ， 简 单 拖 搜 时 间 轴 箭头 可 设置 时 间 和 范围 ， 选 择 相应 的 地 区 值 就 可 以 查看 该 地 区 的 柱状 图 ， 随 着 过 滤 值 的 改变 ， 柱 状 图 可 以 自动 更 新 。 


SAS Visual Analytics 还 提供 了 自动 绘图 (Autocharting) 功能 ， 基 于 拖 搜 到 可 视 化 区 域 的 数据 ， 它 会 检视 全 部 需要 探索 的 数据 ， 并 根据 数据 量 和 数据 类 型 ， 自 动 帮助 用 户 选择 最 
合适 的 可 视 化 技术 。 当 然 ， 如 果 该 可 视 化 不 是 用 户 所 需要 的 ， 也 可 以 手动 指定 可 视 化 方式 。 借 助 这 项 功能 ， 用 户 可 以 随时 定义 分 析 层 次 ， 交 互 式 地 探索 数据 ， 并 采用 多 种 方式 来 显示 数 
据 ， 从 而 回答 和 解决 特定 的 业务 问题 。 例 如 ， 在 使 用 自助 绘图 功能 时 ， 如 果 只 选择 一 个 变量 ， 那 么 它 会 自动 绘制 出 该 变量 的 数据 分 布 ， 如 图 2-14 所 示 。 如 果 将 第 二 个 变量 拖 搜 进来 ， 
它 就 会 自动 绘制 一 份 散 点 图 ， 如 图 2-15 所 示 。 

同时 ， 在 用 户 界面 会 有 “这 是 什么 意思 ”的 气泡 提示 (如 图 2-16 所 示 ) ， 从 而 为 用 户 解读 正在 使 用 的 复杂 分 析 功 能 ， 识 别 并 解释 图 形 中 的 变量 间 关 系 。 这 项 功能 让 数据 分 析 和 数 
据 可 视 化 变 得 更 加 简便 ， 也 让 非 技术 人 员 很 容易 就 能 够 快速 掌握 。 
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将 数据 项 拖 至 此 处 以 过 滤 所 有 使 用 该 数据 源 的 可 视 化 视图 。 
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图 2-13 ”数据 探索 中 的 过 滤器 
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图 2-14 ”自助 绘图 功能 - 拖 搜 一 个 变量 后 自动 生成 条 形 图 
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自助 绘图 功能 - 拖 搜 两 个 变量 后 自动 生成 散 点 图 
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E psk aLERT | 
中 名 : FEAERT | 
如 何 指定 表 别 名 县 





表 别 名 是 表 的 临时 蔷 代 名 。 表 别名 在 代码 的 FROH 
子 句 中 使 用 。 


二 ， 企 刻 关 于 段 中 指定 的 名 可用 于 生 威 羽 码 ， 倍 忆 
多 主 枚 到 这 萝 卡 中 可 内。 





图 2-16 ”气泡 提示 


2.3.4 基于 Web 的 报表 设计 


SAS Visual Analytics 为 不 同 技术 水 平 的 用 户 提 供 了 基于 Web 的 交互 式 报表 开发 界面 ， 适 合 报表 制作 人 员 使 用 。 创 建 好 的 报表 可 以 在 报表 查看 器 (SAS Visual Analytics Viewer) 
和 SAS Mobile BI 中 查看 。 


报表 设计 器 通过 拖 搜 功 能 控制 表 、 图 形 和 其 他 对 象 ， 在 使 用 界面 选项 设置 对 象 属性 和 报表 式样 ， 甚 至 创建 新 变量 时 都 有 引导 界面 来 帮助 用 户 完成 操作 。 自 定义 图 形 生 成 器 (SAS 
Visual Analytics Graph Builder) 可 以 创建 自 定义 图 形 对 象 ， 然 后 在 报表 设计 器 中 将 这 些 对 象 用 于 报表 和 仪表 板 。 这 些 功能 对 于 无 法 熟练 使 用 SAs 代 码 的 分 析 师 来 说 ， 是 一 个 巨大 的 帮 
助 。 图 2-17 就 是 报表 设计 器 创建 的 一 个 报表 示例 。 
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图 2-17 ”生成 报表 


移动 的 报表 查看 器 是 每 个 设备 的 本 地 查看 器 。 例 如 ， 图 2-18 是 来 自 SAS Mobile Bl App for iPhone 的 一 个 屏幕 截图 。 
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图 2-18 ”移动 客户 端 查看 报表 


2.4 ” SAS 数据 可 视 化 分 析 的 展望 


Optimization) 和 SAs 计 量 经 


里 元 


SAS 可 视 化 产品 系列 涵盖 了 数据 分 析 的 全 部 层面 。 在 SAS Viya 平 台 上 ，SAS 不 仅 提供 了 SAS 可 视 化 分 析 (SAS Visual Analytics) 、SAS 可 视 化 统计 (SAS Visual Statistics) 、SAS 
可 视 化 数据 挖掘 与 机 器 学 习 (SAS VDMML) 和 SAS 可 视 化 调查 (SAS Visual Investigator) ， 还 提供 了 SAS 可 视 化 预测 (SAS Visual Forecasting) 、SAS 优 化 (SAS 
济 学 (SAS Econometrics) 等 产品 和 技术 。 本 书 不 对 SAS 可 视 化 预测 、SAS 优 化 和 SAS 计 量 经 

SAS 会 继续 可 视 化 技术 研究 ， 为 客户 建立 更 易于 理解 易于 使 用 的 最 佳 数 据 分 析 环 境 。 


量 经 济 学 产品 进行 介绍 。 


2.5 ”本 书 内 容 概述 


本 书 的 后 续 章节 将 系统 介绍 SAS 可 视 化 家 族 产 品 。 


首先 介绍 SAS 可 视 化 分 析 (SAS Visual Analytics) ， 包 括 通过 多 种 方法 将 不 同 数据 源 加 载 到 服务 器 中 ， 进 行 数据 处 理 和 数据 准备 ， 如 何 构建 一 个 简单 的 报告 以 及 如 何 控制 报告 的 
外 观 和 风格 ， 为 多 维 分 析 创 建 和 编辑 层级 ， 创 建 仪表 盘 等 。 


接 下 来 会 介绍 SAS 可 视 化 统计 (SAS Visual Statistics) ， 包 括 使 用 各 种 分 析 模 型 的 基本 方法 、 进 行 模型 比较 和 评估 。 
然后 会 介绍 SAS 可 视 化 调查 (SAS Visual Investigator) ， 包 括 如 何 进行 组 


绍 


一 人 


内 的 合 规 或 反 欺 诈 / 洗 钱 调 查 。 该 解决 方案 是 SAs 可 视 化 分 析 技 术 在 实际 行业 中 的 具体 应 用 。 


最 后 以 SAs 可 视 化 分 析 (SAS Visual Analytics) 为 例 ， 介 绍 多 种 部 署 架构 和 部 署 要 点 ， 以 及 企业 在 实际 应 用 中 的 系统 管理 要 点 和 安全 设置 。 


2.6 ”本章 小 结 


本 章 简 要 介绍 了 SAS 的 可 视 化 分 析 平 台 的 核心 组 件 ， 同 时 逐一 介绍 了 SAS 可 视 化 分 析 产 品 的 主要 功能 及 其 相互 联系 ， 并 且 简 单 介 绍 了 SAS 可 视 化 分 析 (SAS Visual Analytics) 最 核 
心 的 4 个 功能 模块 。 最 后 探讨 了 SAS 可 视 化 分 析 的 展望 以 及 本 书 内 容 的 概述 。 


第 3 章 SAS Visual Analytics 的 数据 访问 和 准备 


获取 数据 和 准备 数据 是 通 往 数据 探索 的 第 一 步 。 数 据 分 析 的 成 功 实现 依赖 高 质量 的 数据 : 来 自 数据 源 的 数据 经 过 数据 清洗 、 数 据 标准 化 和 数据 转换 等 步骤 后 ， 将 无 效 、 宛 余数 据 过 
滤 ， 并 解决 数据 分 歧 和 数据 缺失 问题 ， 最 终 准 备 好 的 数据 具备 完整 性 、 一 致 性 和 标准 化 等 特征 。 通 常 来 说 ， 在 开始 深入 地 分 析 数 据 之 前 的 基本 步骤 如 图 3-1 所 示 。 


获取 效 据 ， 滑 沈 效 据 | 数据 标准 化 效 据 苇 换 








数据 探 寺 与 可 人 视 化 。” | 加 我 效 据 


图 3-1 ”开始 深入 分 析 数 据 之 前 的 基本 步 又 





不 同 于 其 他 商用 可 视 化 分 析 产 品 ，SAs Visual Analytics 吉 括 了 数据 分 析 全 生命 周期 各 阶段 的 产品 ， 提 供 从 数据 准备 一 直到 | 移动 端 应 用 的 一 站 式 服 务 ， 并 支持 对 非 结构 化 数据 进行 
文本 分 析 等 功能 。LASR 内 存 分 析 服 务 器 是 SAS Visual Analytics 的 核心 引擎 ，LASR 服 务 器 专 为 分 布 式 计算 环境 而 设计 ， 典 型 的 分 布 式 环境 包括 一 系列 刀片 服务 器 作为 分 析 和 集群 ， 每 个 
刀片 服务 器 都 包含 对 应 的 本 地 人 存储 和 大 容量 内 人 存 。 数 据 被 加 载 到 LASR 服 务 器 集群 的 各 数据 节点 中 进行 大 规模 的 并 行 分 析 处 理 ， 使 得 客户 端 可 以 快速 访问 这 些 数据 并 获取 分 析 结果 。 


LASR 服 务 器 支持 Hadoop 分 布 式 文件 系统 (HDFS) ， 支 持 对 数据 进行 并 行 读 写 。 同 时 LASR 还 支持 常用 的 第 三 方 并 行 数据 库 作 为 co-located 数 据 源 提供 方 ， 例 如 大 规模 并 行 处 理 
数据 仓库 Teradata 设 备 等 。 根 据 数据 分 析 工 作 进 行 的 时 间 先 后 ， 可 以 将 用 户 使 用 的 SAS Visual Analytics 功 能 模块 汇总 如 下 : 


* Administrator: 管理 、 监 控 LASR 服 务 器 并 装载 数据 ， 对 数据 提供 安全 支持 。 
. Visual Data Builder: 进行 数据 准备 。 

EExplorer: 进行 数据 探索 ， 并 提供 可 视 化 工具 进行 初步 的 数据 可 视 化 操作 。 
Designer: 设计 报表 和 仪表 盘 。 

.Web Viewer: 查看 报表 和 仪表 盘 。 

.Mobile BI: 在 移动 设备 端 下 载 并 查看 数据 分 析 报告 。 


本 章 将 重点 讲解 Administrator 和 Visual Data Builder。Administrator 帮 助 用 户 将 需要 准备 的 数据 加 载 到 LASR 内 存 分 析 引擎 以 进行 快速 交互 ， 并 将 准备 完成 的 数据 重新 加 载 到 分 
析 引 擎 中 。 使 用 Visual Data Builder 可 以 实现 数据 查询 探索 、 过 滤 、 追 加 、 自 定义 列 和 表 连 接 等 操作 。 


在 本 章 ， 我 们 首先 列 出 常见 的 数据 源 和 各 自 的 特点 。 


3.1 认识 效 据 源 


数据 源 是 提供 数据 的 原始 系统 ， 泛 指 提供 各 种 类 型 数据 的 单一 文件 (如 csv) 、 数 据 库 或 大 数据 存储 等 。SASs Visual Analytics 支 持 导入 以 下 数据 源 。 
. 单一 文件 类 型 : 用 户 可 以 导入 Mictosoft Excel 电 子 表 (XLS、XLSX 或 XLSM) ， 文 本 文件 (CSV、TXT 等 ) 和 SAS 数 据 集 (包括 SASHDAT 或 SAS7BDAT) 。 
. 数据 库 服务 器 及 大 数据 存储 : LASR 支 持 市 面 上 绝 大 多 数 常用 的 关系 型 数据 库 和 以 及 Cloudera Hadoop 等 大 数据 存储 。 


. 社交 媒体 : Facebook、Google Analytics 和 Twittet 等 。 


3.1.1 早 一 文件 类 型 


(1) 文本 文件 


包括 由 逗号 、 分 号 、 空 格 、 制 表 符 (TAB 键 ) 等 文件 分 隔 符 分 隔 的 txt 格 式 文件 和 csv 格 式 文件 。 作 为 存储 数据 的 最 基本 格式 ， 相 对 于 其 他 数据 存储 类 型 ， 文 本 文件 提供 了 数据 的 轻 
量 级 存储 ， 同 时 也 可 以 转换 成 其 他 格式 或 数据 类 型 。 


(2) Microsoft Excel 电 子 表 


微软 的 Excel 文 件 类 型 在 文档 管理 中 被 广泛 使 用 ， 用 来 存储 财务 、 销 售 、 生 产 等 原始 或 汇总 数据 。 “xls” 格式 是 较 早 的 存储 格式 ，“xlsx” 是 Office 2007 之 后 使 用 的 标准 电子 表格 
文件 格式 ， 存 储 占用 空间 更 小 ， 并 向 下 兼容 xls 格 式 。 灵 活 使 用 Excel 的 数据 菜单 提供 的 功能 可 以 对 数据 进行 初步 的 排序 、 过 滤 与 合并 等 操作 。 使 用 Excel 也 可 以 将 Excel 文 件 转换 成 其 他 
类 型 的 文件 ， 如 csv、txt 和 xm| 文 件 等 。 


(3) SAS 数 据 集 
SAS7BDAT 和 SASHDAT 是 SAS 存 储 数据 常用 的 两 种 类 型 。SAS7BDAT 类 型 的 数据 就 是 最 常用 的 SAS 数 据 集 ， 是 SAS 9 环境 存储 和 管理 数据 的 最 基本 格式 。 


SASHDAT 是 SAS 专 用 的 分 布 式 数 据 格式 ， 可 以 存储 在 Hadoop 分 布 式 文件 系统 (HDFS) 中 ， 数 据 使 用 二 进 制 、 压 缩 的 存储 结构 。 在 HDFS 中 ，SASHDAT 按 行 被 均匀 分 布 在 HDFS 
块 上 ,分 析 引 擎 可 以 在 每 一 个 节点 上 读 取 近似 数据 量 的 数据 ， 从 而 达到 负载 均衡 的 目的 。HDFS 中 存放 的 SASHDAT 文 件 被 LASR 分 析 服 务 器 加 载 后 ，SASHDAT 文 件 的 每 一 字 节 地 址 被 
逐一 映射 到 内 存 页 中 。 分 析 使 用 到 SASHDAT 文 件 的 特定 数据 时 才 会 将 这 些 行 的 数据 真正 加 载 至 LASR 服 务 器 内 存 ， 从 而 起 到 节省 内 存 开销 并 提升 性 能 的 作用 。 


3.1.2 ”数据 库 和 大 数据 存储 

数据 库 是 按照 数据 结构 来 组 织 、 存 储 和 管理 数据 的 仓库 ， 常 见 的 关系 型 数据 库 管 理 系 统 包括 Oracle、PostgreSQL、Teradata 等 。 大 数据 存储 用 来 描述 数据 量 和 复杂 度 超 过 了 当前 
存储 技术 能 处 理 的 数据 ， 其 特性 包括 数据 量 大 ， 数 据 类 型 广泛 (结构 化 、 半 结构 化 和 非 结构 化 ) ， 要 求 处 理 速 度 快 等 ， 常 见 的 大 数据 存储 平台 包括 Hadoop 等 。 

(1) Oracle 


Oracle 是 甲骨 文公 司 开发 的 一 款 关系 数据 库 管 理 系 统 ， 一 直 在 该 领域 中 处 于 领先 地 位 。 在 验证 SAS Visual Analytics 与 Oracle 数 据 库 的 连通 性 测试 中 ， 需 要 首先 确认 SAS/ACCESS 
to Oracle 和 Oracle 客 户 端 企 SAs 服 务 器 上 已 经 成 功 安装 并 配置 完成 ， 并 人 在 SAs 服 务 器 系统 环境 变量 LD_LIBRARY_PATH 和 PATH 中 ， 添 加 Oracle 运 行 环境 。 


(2) Teradata 


Teradata 是 企业 级 大 型 数据 仓库 ，LASR 服 务 器 也 提供 了 Teradata 的 连接 许可 。 用 户 可 以 选择 并 行 或 囊 行 的 数据 传输 模式 从 Teradata 将 数据 加 载 到 LASR 服 务 器 。 并 行 方式 指 的 是 
利用 Teradata 数 据 表 的 Primary Index (PIl) 或 视图 的 哈 希 计算 值 ， 使 数据 通过 存 取 模 块 处 理 器 (AMP) 均匀 分 布 在 各 节点 的 磁盘 上 从 而 进行 读 取 ， 使 用 并 行 传输 模式 ， 越 均匀 的 数据 
分 布 ， 可 以 越 快 地 加 载 数据 。 


(3) Hadoop 


SAS 数 据 集 在 HDFS 上 是 以 SAASHDAT 格 式 保 存 的 ， 数 据 行 以 块 分 区 的 方式 分 布 在 Hadoop 环 境 各 数据 节点 上 。SASHDAT 文 件 和 LASR 上 的 数据 都 具有 如 下 相同 的 特性 : 一 段 SAs 特 
有 的 文件 头 ， 用 来 表示 变量 信息 、 格 式 和 编码 等 ， 以 数据 块 组 织 的 行列 数据 ， 以 及 为 提高 并 行 速 度 和 吞吐 量 而 设计 的 数据 结构 。 


3.2 ”使 用 Administrator 管 理 LASR 服 务 器 


本 节 将 介绍 如 何 使 用 SAS Visual Analytics Administrator 管 理 SAS 的 内 存 分 析 引 人 擎 ， 即 LASR 服 务 器 。Administrator 可 用 来 进行 LASR 服 务 器 的 启动 和 停止 ， 并 加 载 或 卸载 LASR 中 
存储 的 数据 集 。 除 此 之 外 ， 用 Administrator 可 以 监控 LASR 服 务 器 运行 时 状态 和 统计 信息 ， 并 进行 权限 管理 等 操作 。 


数据 加 载 的 具体 过 程 如 图 3-2 所 示 : 当 用 户 用 Administrator 进 行 某 一 数据 集 加 载 时 ，LASR 服 务 器 从 数据 源 (在 图 3-2 中 是 本 地 SAS 服 务 器 ) 读 取 数 据 ， 并 将 数据 传输 到 根 节点 。 根 
节点 上 的 管理 模块 会 将 数据 以 特定 的 算法 合理 分 发 至 集群 上 的 工作 节点 ， 工 作 节 点 将 各 自 拥 有 的 数据 加 载 至 内 存 ， 至 此 数据 加 载 完成 。 


图 3-2 是 将 位 于 SAS 服 务 器 本 地 的 SAS 数 据 集 加 载 到 LASR 服 务 器 并 进行 分 析 的 概念 图 。 


1. 启动 LASR 服务 | “|2. 根 节 点 用 来 将 数据 分 |3. 工作 节点 执行 子 
器 并 运行 数据 加 发 至 各 工作 节点 。 根 分 析 任 务 并 将 结 


载 和 分 析 程 序 万 氮 可 以 将 执行 步 驳 末 返 回 到 根 广 操 
分 解 ， 分 发 至 各 工作 
万 氮 进 行 计算 





Root Worker | le Worker Worker 


PROC LASR 
Node Node Node Node Node 


人 
1 


SAS Data 





图 3-2 ”本 地 数据 集 加 载 概念 图 


一 旦 数据 被 加 载 至 内 存 ， 这 些 数 据 将 保持 在 内 存 中 直到 从 LASR 服 务 器 上 被 卸载 或 LASR 服 务 器 停止 。 用 户 的 应 用 将 被 授权 允许 访问 数据 ， 并 将 与 数据 相关 的 请 求 友 送 到 LASR 服 务 
器 并 等 待 计 算 结 果 。 需 要 注意 的 是 ， 加 载 到 LASR 服 务 器 的 数据 是 无 法 被 修改 的 ， 但 用 户 可 以 通过 append (追加 表 ) 方式 添加 更 多 的 数据 至 某 一 LASR 数 据 表 中 。 


图 3-3 是 将 Oracle 数 据 库 中 的 表格 远程 加 载 到 LASR 服 务 器 并 进行 分 析 的 概念 图 ， 与 图 3-2 的 主要 区 别 在 于 在 SAs 服 务 器 上 需要 用 SAs/ACCESs 引 擎 预先 通过 Oracle 客 户 端 将 数据 传 
输 到 SASs 服 务 器 本 地 。 


1. 启动 LASR 服务 
从 并 运行 数据 加 
载 和 分 析 程 厅 


2. 根 市 点 用 来 将 数据 分 发 至 | |3. 工作 节点 执行 子 
溃 工作 三 扩 。 根 太后 可 以 分 析 任 务 并 将 结 
将 执行 步 缀 分 解 ， 分 发 至 朱 返 回 到 根 节 点 


各 工作 塘 扣 进行 计算 
Worker Worker 
Node Node 





PROC LASR 





Oracle Client 
SAS/ACCESS 


图 3-3 ”远程 数据 集 加 载 概念 图 


co-|ocated 加 载 方式 不 同 于 前 面 的 单一 本 地 数据 源 和 远程 数据 库 加 载 ，co-located 加 载 方式 意味 着 HDFSs 的 数据 节点 和 LASR 服 务 器 的 工作 节点 物理 上 一 一 对 应 : 首先 ，Hadoop 的 
NameNode 是 集群 中 的 管理 单元 ， 维 护 着 虚拟 目录 ， 文 件 表 和 物理 数据 块 的 映射 关系 ， 并 不 直接 存储 数据 。 数 据 被 NameNode 划 分 成 等 大 小 、 可 复制 的 块 并 均匀 分 布 在 HDFS 各 数据 
节点 中 。 因 为 数据 节点 和 SAS 的 分 析 引 擎 架 构 中 的 工作 节点 可 以 一 一 对 应 ， 这 样 数据 就 可 以 从 co-located 的 数据 节点 快速 加 载 到 LASR 和 集群 的 分 析 工 作 节 点 。 一 个 典型 的 co-located 加 
载 过 程 如 下 : 


1) 将 某 一 大 数据 量 的 数据 (可 以 是 SAS 数 据 集 ， 也 可 以 是 来 自 其 他 数据 源 的 表 ) 通过 SASHDAT 引 擎 将 数据 分 布 式 存储 到 HDFS 文 件 系 统 中 ， 格 式 为 SASHDAT。 
2) 启动 LASR 服 务 器 ， 并 运行 数据 加 载 程序 。 


3) 根 节点 将 请 求 发 送 至 每 个 工作 节点 ， 工 作 节 点 将 位 于 该 节点 的 数据 映射 加 载 进 来 。 


4) 加 载 结果 被 汇总 到 根 节点 ， 此 次 LASR 服 务 器 数据 加 载 完成 。 


3-4 是 将 某 一 SAS 数 据 集 存储 至 HDFS 并 再 次 加 载 到 LASR 服 务 器 中 的 概念 图 。 


3. 局 动 LASR 服务 5. 工作 节点 将 加 载 结 
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末 返 回 到 根 证 点 
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2. 数据 被 划分 成 等 大 小 ， 从 本 地 读 取 数据 ， 并 快 


速 加 载 至 co-located 的 
TFET 
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储 至 HDFS 布 至 HDFS 各 节点 中 





图 3-4 ”用 co-located 方 式 加 载 数据 集 概念 图 


3.2.1 创建 LASR 服 务 器 


在 本 节 ， 读 者 将 学 会 如 何 使 用 SAS Management Console 在 SAS 9.4 环 境 中 创建 一 个 全 新 的 LASR 服 务 器 ， 用 于 加 载 和 分 析 一 个 名 为 Orion 项 目的 数据 。 


首先 ， 需 要 使 用 SAS 内 部 管理 员 账 户 (sasadm@saspw) 登录 SAS Management Console 并 选择 新 建 一 个 LASR 服 务 器 。 需 要 注意 的 是 ， 本 节 假 设 用 户 环境 部 署 运 行 大 规模 并 行 
处 理 模式 (Massively Parallel Processing) ， 即 一 个 LASR 控 制 节点 和 多 个 LASR 工 作 节 点 ， 而 非 单机 部 署 方式 。 相 应 地 ， 在 选择 LASR 服 务 器 类 型 时 也 需要 将 是 否 是 单机 部 署 的 选项 置 
为 否 ， 并 指定 SAS 高 性 能 分 析 环 境 (SAS TK Grid) 的 所 在 位 置 ， 如 图 3-5 所 示 。 


| 


New Server Wizard 
Enter the following serwer properties, 


Single machine server; | Mo ™ 


Distributed serwer options 


High-Performance Bnalytics environment install locatian: lioptisasinside/ TkGrid 


MuUmber of machines to Use' LL 


bdvwanced Options,,, | 


图 3-5” ”新建 LASR 对 话 框 


在 随后 的 配置 中 ， 需 要 指定 该 LASR 服 务 器 所 使 用 的 端口 和 根 节点 主机 名 称 ， 如 图 3-6 所 示 。 


New Server Wizard A| 


New Server Wizard 
Enter the connection properties, 





Port number': 
High-Performance Bnalytics environment host: |sasserver,demo,sas,com 


LSR authorization service location 


[Iw Use LASR authorization service: |httpWsasserver,demo,sas,com:798015A5LA5RAUthorizakion 


bdvanced 总 ptionms,，，， | 





图 3-6 ”设置 LASR 服 务 器 端口 和 根 节 点 


最 后 ， 在 SAs Management Console 中 新 建 存储 数据 的 SAS 文 件 夹 ， 目 的 是 将 操作 系统 上 的 文件 目录 和 SAS 元 数据 进行 绑 定 并 命名 ， 便 于 编写 SAS 程 序 和 进行 客户 端 操 作 。 在 本 
节 的 用 例 中 ， 新 建 了 用 于 管理 Hadoop 数 据 源 的 名 为 “Orion HDFS Data” 的 目录 ， 以 及 用 于 LASR 服 务 器 加 载 数据 的 “Orion LASR Data” 目录 等 5 个 目录 ， 如 图 3-7 所 示 。 


接 下 来 ， 选 择 SAS Management Console 左 侧 Plug-ins 选 项 卡 ， 打 开 并 新 建 一 个 LASR 分 析 服 务 器 逻辑 库 ， 此 步骤 用 来 绑 定 在 之 前 建立 的 LASR 服 务 器 ， 并 命名 存储 数据 集 的 逻辑 
库 ， 如 图 3-8 所 示 。 
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图 3-7 Orion 项 目 目 录 结 构 


New Library Wizard | 


New Library Wizard 
Enter the Following library properties, 





Libref， [orlasr 
Engine: [58510L# 
SEErweEr tag; [orion 


Storage 


Data provider library': ew ,, 





bdvanced Options,,, | 


图 3-8 ”新建 LASR 分 析 服 务 器 逻辑 库 对 话 框 


在 此 过 程 中 需要 注意 的 是 ， 需 要 给 该 逻辑 库 赋 予 一 个 逻辑 库 引 用 名 和 服务 器 标签 ， 对 于 HDFS 文 件 系统 ， 服 务 器 标签 就 是 稍 后 将 创建 的 HDFS 库 的 以 小 数 点 符号 分 隔 的 HDFS 路 径 。 
完成 后 ， 打 开 该 逻辑 库 属 性 ， 并 点 击 扩展 属性 页 ， 可 看 到 和 自动 加 载 相关 的 众多 配置 。 在 此 例 中 ， 配 置 了 自动 加 载 的 Linux 目 录 ， 并 设置 不 允许 自动 加 载 ， 如 图 3-9 所 示 。 


Orion LASR Library Properties | 
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1 a.Default.MetadataFolder i!Shared Datalsss Visyual Bnahyticsis,,, Metadata location of autoloaded LASR table objects For ,,, 
2 MA,AutoLoad,AutoStart No Automatically start the LaSR server For 引 load regquests,,. 


NamooadsmeEnabed ho ee paront attrbute Forautoload syrchronization 
aaateadsrempat Mo ee port spreadsheors and doimitedfies 
ramosdsymelod ho ee odnew tabis fromthe ooad data drectory 
eamoloadsymeReneh ho ee Romesh LAsR tablos whose sourco tableshavenomer ti 
oomoloadsymemppend ho ee ppondtablesthat rmihe Append drectory 
ohanaoadsyeunod ho enadtablesthataremihe noad retoy 
homoloadDebugErabied ho ecoddebuogrg ee 
ianooadonartEnabied ho econols Fload onstartisenabledor th ibray 
haoadorstartTabieDerat No ee Determines Fnew tables addedto this ierary Pave cna 
honeoadorstartmethod Al ee Dotormines Fload on startapplesto A tables or only 
eamoloadcompressEnabied nbediacmpmesm 
oamoloadexpandcharsEnbied ho fevpand charactor veriable engkhs to arcommodate dau 
hberucomes | ee fmberof complete snglenode nstancesfor eachtable 


图 3-9 ”扩展 属性 页 





至 此 ， 完 成 了 LASR 服 务 器 、 相 关 元 数据 文件 夹 和 LASR 逻 辑 库 的 创建 工作 。 


3.2.2 创建 并 配置 HDFS 目 录 


上 一 步 完 成 了 SAS LASR 服 务 器 和 LASR 多 辑 库 的 创建 。 本 节 将 在 linux 环 境 中 切换 到 Hadoop 用 户 并 创建 HDFS 目 录 ， 用 于 存储 将 要 使 用 的 HDFS 数 据 。 


首先 ， 以 Hadoop 用 户 登 录 并 执行 如 下 Hadoop 文 件 系 统 命 令 ， 用 来 创建 Orion 项 目 需要 的 数据 存储 目录 : 


$ su hadoop 
Password: 
$ cd /opt/sasinside/hadoop/hadoop-2.4.0/bin 


./hadoop fs -mkqir -p /orion 
./hadoop fs -chgrp sas /orion 
./hadoop fs -chmoq 770 /orion 
./hadoop fs -ls / 


UO 





在 此 成 功 创建 了 一 个 名 为 /orion 的 HDFS 目 录 ， 并 赋予 sas 用 户 组 和 770 权 限 ， 这 样 同 样 从 属于 sas 用 户 组 的 用 户 便 有 读 写 此 HDFS 目 录 的 权限 。 


打开 SAS Management Console 客 户 端 ， 使 用 SAS 内 部 管理 员 账 户 (sassadm@saspw) 登录 ， 为 该 Hadoop 目 录 注 册 唯 一 的 HDFS 逻 辑 库 ， 并 指定 该 HDFS 逻 辑 库 的 引用 名 称 和 
HDFS 路 径 ， 同 时 设置 是 否 激活 对 该 HDFS 库 中 存储 数据 加 密 ， 如 图 3-10 所 示 。 


New Library Wizard | 


New Library Wizard 
Enter the Following library properties， 





Libref; [orhdfs 
Engine: ashcaT 
Path: [erion 


Encryption 已 pkionms 


on-disk BES encryption settings For this library, 


Enable Encryptionm: f Yes i Ne Inherit from data server 


ew Er pt ew | 
oni Em Kew: | 


霹 Changes that vou make here do not affect existing tables, Before vou change these encryption settings, temporarily mowe 
any such tables to an alternate or backup location, 


bdwanced Options, ,, | 


< Back Fimisti | ancel | Help | 


图 3-10 ”注册 HDFS 逻 辑 库 对 话 框 


之 后 ， 在 SAS Management Console 文 件 夹 面板 中 右 击 在 3.2.1 节 建立 的 SAS 元 文件 夹 的 Orion HDFS Data 目 录 ， 在 弹出 的 菜单 中 选择 属性 ， 为 此 目录 添加 合适 的 用 户 组 ， 并 为 此 
用 户 组 授予 必要 的 权限 ， 包 括 ReadMetadata、WriteMetadata、WriteMemberMetadata 和 Read 权 限 。 由 此 在 操作 系统 层面 和 SAS 元 数据 层面 的 HDFS 目 录 就 都 被 赋予 相应 的 权限 
J 


在 3.2.1 和 3.2.2 节 ， 读 者 学 习 了 如 何 创建 LASR 服 务 器 ， 并 配置 完成 了 HDFS 目 录 ， 接 下 来 的 小 节 将 由 浅 入 深 地 依次 讲解 如 何 加 载 单一 SAS 数 据 集 ， 加 载 HDFS 数 据 和 其 他 高 级 数据 管 
理 操作 。 


3.2.3 ”局 动 LASR 服 务 器 


使 用 拥有 Visual Analytics Administrator (管理 员 ) 角色 的 用 户 登 录 Visual Analytics Hub 页 面 ， 可 选择 使 用 快捷 方式 将 管理 器 添加 到 首页 ， 如 图 3-11 所 示 。 





最 近 使 用 项 收 蕊 区 ; | 目 锯 授 
当 钨 打开 对 汝 时 ， 最 近 使 用 的 内 容 梅 在 此 处 您 标记 为 收 蔬 项 的 内 容 构 在 此 处 型 示 。 立 即 链 按 棕 在 此 处 旱 示 。 立 即 或 衔 后 深 加 适 法 ， 
此 处 昆 一 些 快 速 提示 ; 旦 示 。 或 币 后 流 加 收 竖 项 。 
。 椅 频 用 程 净 快 兵 方 式 添加 至 主页 。 您 可 以 定 怕 凑 色 和 名 称 ， 


。 点 十 畏 幅 中 "5A5# 主页 "旁边 的 国标， 使 用 侧面 苹 单 访问 应 再 程序 ， 
” 地 择 钨 的 名字 并 疝 击 " 注 鲍 ”,， 即 可 从 应 用 柱 序 中 注入 
。 加 入 SAS 社区 , 参与 有 关 小 技巧 和 最 佳 实践 的 热烈 讨论 


OOOQOQOQO0Q 





图 3-11 Visual Analytics Hub 页 面 


点 击 管 理 器 图 标 ， 等 待 界面 刷新 完成 。 从 LASR 荣 单 中 选择 管理 服务 器 ， 可 以 看 到 LASR 服 务 器 列表 信息 ， 在 图 3-12 中 ， 我们 可 以 看 到 两 个 默认 安装 的 LASR 服 务 器 和 3.2.1 节 新 建 的 
Orion Sales LASR server 服 务 器 。 勾 选 “ 选 项 卡 初始 化 时 获取 状态 ”选项 ， 可 以 让 此 页 面 在 每 次 刷新 时 就 可 获取 到 LASR 服 务 器 的 最 新 状态 信息 。 


LASR 服务 器 其 | = 


(9 六 同 | 加 定 | 加 选项 卡 钾 始 化 时 获取 状态 | 取消 [服务 器 。 | | ( 国 太守 ly 
口 | 服务 器 枯 态 | 虚拟 上 内存 到 内存 (MB) 。。 夫 限 制 MB) | 主机 浪 口 | 电动 者 说 明 






图 sa33EIWVET. 由 ElitO.33. 10010 SASLASR Ar 
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vite Server - SSSETUET 






图 3-12 ”LASR 服 务 器 列表 


选择 启动 端口 为 10012 的 Orion Sales LASR Server。 当 服务 器 启动 完成 后 ， 我 们 可 以 在 该 次 启动 的 操作 日 志 中 查看 后 台 运 行 代码 。 部 分 代码 如 下 : 


smacro codeBody; 
$$GLOBAL LASTSTEPRC; 
gif Ssymexist (LASTSTEPRC) %then %do; 
$if Seval (&LASTSTEPRC. <= 4) %$then $do; 


/* Start the LASR server process in the cluster */ 

Proc lasr create PORT=10012 
path="/tmp" 
signer="http://sasserver.demo.sas.com:7980/SASLASRAuthorization" 
tablemem=80 


performance host="sasserver.demo.sas.com" 
install="/opt/sasinside/TKGrid” 
nodes=&finalnodes. 


TU 
$end; 
$end; 
smend; 


从 上 面 截取 的 部 分 操作 日 志 中 ， 可 以 看 出 在 管理 器 页 面 的 用 户 操作 被 转换 成 PROC LASR 的 SAS 过 程 步 并 提交 给 SAS Workspace Server 执 行 。 PROC LASR 中 的 各 项 参数 均 是 3.2.1 
节 通 过 SAS Management Console 设 置 并 保存 的 。 其 中 SIGNER 的 选项 代表 为 加 载 数 据 集 进行 授权 。 具 体 的 加 密 设置 步骤 请 详 见 第 8 章 。 


3.2.4 ”加 载 单 一 SAS 数 据 集 


使 用 拥有 Visual Analytics 管 理 员 角色 的 用 户 登 录 SAS Visual Analytics 管 理 器 ， 右 击 Orion Sales LASR Server 项 并 选择 加 载 表 命令 ， 然 后 选择 原始 SAS 分 析 数 据 集 (读者 可 以 在 
SAS Management Console 中 新 建 SAS BASE 逻 辑 库 ， 并 向 此 逻辑 库 中 注册 表 ， 进 行 原始 SAs 数 据 集 的 注册 ) 。 在 本 例 中 原始 SAS 分 析 数 据 集 名 为 ORION_DASHBORD， 如 图 3-13 所 


小 \。 


在 弹出 的 窗口 中 需要 修改 的 地 方 包括 LASR 表 的 名 称 (可 以 使 用 _LASR 后 缀 命名 以 便于 和 原始 表 进行 区 分 ) 、 位 置 (该 LASR 服 务 器 上 用 来 存放 该 表 的 文件 夹 ) 和 逻辑 库 (为 Orion 
LASR 服 务 器 创建 的 LAsR 逻 辑 库 ) ， 以 便 将 单一 SAS 数 据 集 加 载 至 LASR 服 务 器 。 


在 管理 表 页 面 ， 可 以 看 到 当前 已 加 载 和 未 加 载 的 全 部 LASR 数 据 集 ， 默 认 展 示 的 列 名 包括 表 名 、 加 载 状态 、SAS 目 录 、 大 小 、 行 计数 和 列 计数 (只 有 加 载 到 服务 器 后 才 会 统计 展 
示 ) 。 此 外 ， 可 以 添加 更 多 默认 隐藏 的 列 ， 包 括 映射 的 内 存 、 修 改 时 间 、 逻 辑 库 字符 集 等 信息 ， 通 过 这 些 信息 可 以 准确 定位 需要 加 载 的 数据 集 ， 如 图 3-14 所 示 。 


加 载 袁 
虱 定 李 才 加 载 到 SASLASR Analytic Server 的 相关 设 年 


















































盟 误 

名 牺 : ORION DASHBOARD 

型 辑 库 : 'Shared Data Ornon Folder'Orion Library 
LAsR 改 

名 村: ORION DASHBOARD LASR 

| | 上 压 绽 碌 据 
史 胃 |: 已 由 “Ahmed 于 2017 年 3 月 10 日 星期 五 GMT+0800 下 午 01 叶 科 分 时 仁 
路 “orsdm.ORION DASHBOARD" 中 加 者 
上 开征 : ‘Orion Sales/Orion LASR Data 
光 辑 库 : ‘Orion Sales/Orion LASR DataOrnion LASR Library 





图 3-13 ”加 载 表 对 话 框 
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RE 视图。 LASR 工具 帮助 


AIR 服务 器 着 | LASR 去 >| 














全 六 | 园 | 家 名 本 曾 | 这 项 卡 训 地 化 叶 著 李 林 态 | 取消 二 | 下 |( 故 总 产 】 
LJ 大 拓 志 大 小 | 位 二 腿 务 器 加 轼 时 间 说 明 

国 BUDIT VISUALAMALYT... 围 iShared DataSAs Vismal an LASE Anabtic Server - sas5erver 

图 FILFMOLUNTS 转 Shared DataSis Visual An.. 工 上 SR Mnabytc Server - sasserser 

[ HOSTELATEFORMNS 围 Shared DataSaAs Vismal am LASE Anabrtic Server - sasserver 


图 3-14 LASR 表 标签 


在 LASR 表 的 上 方 提供 了 搜索 选择 ， 方 便 用 户 通 过 表 名 在 众多 数据 集中 找到 自己 所 需 的 数据 。 


3.2.5 ”加 载 HDFS 数 据 


在 本 节 ， 首 先 会 将 一 个 较 大 的 SAS 数 据 集 通过 SASHDAT3 引 | 擎 保 存 至 HDFS 文 件 系 统 ， 之 后 以 co-located 方 式 将 位 于 HDFS 上 的 新 生成 的 SASHDAT 文 件 加 载 至 LASR 服 务 器 。 


首先 ， 选 择 SAS 数 据 集 RIGELTOYS 并 右 击 将 之 添加 至 HDFS， 添 加 表 对 话 框 如 图 3-15 所 示 。 注 意 ，HDFS 对 应 的 SAS 目 录 是 3.2.1 节 配置 的 /Orion Sales/Orion HDFS Data， 逮 辑 库 
是 3.2.2 节 创建 的 HDFS 逻 辑 库 。 


座 加 者 其 
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源 坎 

百 标 : RIGELTOYS 
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辆 出 喜 
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从 “TigeRIGELTOYS 中 添加 


ji 地 IDTion Sales,Orion HDFS Data 





新 诊 库 : ‘Orion Sales'Orion HDFSDataOrion HDFS Library 





图 3-15 ”添加 表 对 话 框 


可 以 选择 “压缩 数据 ”选项 将 数据 集 进 行 压缩 (压缩 使 用 业界 标准 的 zlib 函 数 库 ) ， 这 一 选项 对 于 加 载 到 LASR 的 数据 集 和 保存 为 SASHDAT 格 式 的 文件 均 可 使 用 。 上 图 中 的 “压缩 
数据 ”选项 对 应 到 SAS 数 据 步 中 可 使 用 squeeze=yes 选 项 ， 样 例 数 据 步 如 下 : 


data lasr.cars (squeeze=yes); 
set sashelp.cars; 
run; 


由 实践 可 知 ， 根 据 压缩 数据 列 的 格式 不 同 ， 数 据 表 的 压缩 率 最 高 可 达 90%。 需 要 注意 的 是 ， 压 缩 和 解压 步骤 也 会 市 来 额外 的 计算 开销 ， 使 得 单 次 LASR 数 据 查询 时 间 延 长 。 


在 成 功 保存 后 ， 用 户 可 以 通过 网 页 左上 方 的 向 导 栏 点 击 管理 器 进入 到 如 图 3-16 所 示 的 页 面 。 
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图 3-16 ”管理 环境 页 面 
通过 点 击 “ 浏 览 HDFS” 工具 可 以 看 到 已 添加 的 SASHDAT 数 据 和 块 大 小 等 详细 信息 ， 如 图 3-17 所 示 。 这 意味 着 该 SAS7BDAT 文 件 已 成 功 地 在 HDFS 中 保存 。 
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图 3-17 SASHDAT 信 息 


接着 ， 在 左 侧 文件 夹 面板 中 找到 先前 创建 的 HDFS 文 件 夹 /Orion Sales/Orion HDFS Data， 可 以 看 到 我 们 刚刚 成 功 保存 的 数据 集 RIGELTOYS。 右 击 并 选择 加 载 表 ， 正 式 将 
SASHDAT 数 据 加 载 到 LASR 分 析 服 务 器 ， 如 图 3-18 所 示 。 
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图 3-18 ”将 RIGELTOYS 数 据 集 加 载 到 LASR 
这 样 就 将 数据 集 从 HDFS 文 件 系统 通过 co-located 的 方式 映射 加 载 到 内 存 中 ， 如 图 3-19 所 示 。 


[| ORION DASHBOARD | 325.87 KB | /Orion Sales/Orion LASR Data Orion Sales.., 2017-03-10 上 午 02:14| Loaded on Friday. March 10. 2017 03:14:47 PM GMT... 








图 3-19 ”加 载 到 内 存 中 的 RIGELTOYS 数 据 集 


当 LASR 服 务 器 中 不 再 需要 该 数据 时 ， 可 以 选择 卸载 该 表 。 而 这 张 表 的 元 数据 信息 仍然 保持 在 ?As 环境 中 。 如 果 选 择 继续 删除 该 表 ， 则 将 该 表 元 数据 一 并 从 系统 中 删除 。 


在 本 例 中 ， 从 LASR 服 务 器 中 删除 该 表 后 ， 原 始 SAS7BDAT 数 据 和 SASHDAT 数 据 并 不 会 受到 影响 。 用 户 可 以 使 用 hadoop fs 文件 系统 命令 将 名 为 RIGELTOYS 的 SASHDAT 数 据 直接 
删除 。 当 然 ， 更 加 快捷 的 方式 是 在 Administrator 管 理 页 面 通过 点 击 工具 栏 的 删除 图 标 ， 将 RIGELTOYS 数 据 直 接 删 除 ， 不 必 再 手工 执行 命令 了 ， 如 图 3-20 所 示 。 
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图 3-20 删除、RIGELIOYS 数 据 集 


3.2.6 ”高 级 数据 管理 


右 击 LASR 服 务 器 中 的 某 张 表 ， 选 择 “授权 ”就 可 以 浏览 不 同 身份 对 应 的 操作 权限 ， 并 可 以 添加 权限 给 SAs Management Console 中 已 有 的 用 户 或 用 户 组 。 在 图 3-21 中 ， 添 加 了 
一 个 名 为 Jacques 的 用 户 ， 并 将 赋予 Jacques 特 定 条 件 的 读 权 限 。 
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极权 
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@ © NS NS NS 
e (无 显 式 扶 制 ) 
拒 二 
授 于 
依 条 件 授 于 . 
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图 3-21 添加 新 用 户 
通过 表达 式 编 辑 器 ， 赋 予 Jacques 用 户 查 看 2010 年 和 2011 年 的 月 度 利润 表 数 据 的 读 取 权 限 ， 如 图 3-22 所 示 。 


在 创建 完成 的 统一 的 报表 中 ，Jacques 将 不 同 于 其 他 员工 ， 只 能 看 到 特定 年 份 的 记录 。 
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Ex 


( Teer 


由 和 BetweanInchisre 
[和 Missne 
DN NotMissing 


LE 





确定 | 取消 | 


图 3-22 ”赋予 Jacques 用 户 特定 权限 


3.3 ”准备 数据 的 最 佳 实践 

在 加 载 到 LASR 服 务 器 之 前 ， 我 们 可 以 利用 SAS Visual Data Builder 准 备 数据 ， 进 行 基本 的 数据 处 理 和 探索 ， 如 过 沪 、 表 连接 、 表 追加 、 表 转 置 等 操作 。 在 阅读 本 节 之 前 ， 读 者 可 
以 参考 SAS 的 建议 更 加 高 效 地 进行 数据 表 的 设计 ， 从 而 提高 可 视 化 分 析 的 性 能 并 节省 LASR 服 务 器 内 存 占用 。 
1 使 用 自 定义 格式 


使 用 自 定 义 格 式 可 以 蔡 换 较 长 的 分 类 变量 ， 从 而 节省 物理 空间 ， 并 可 以 提高 表 设 计 的 灵活 性 。 如 图 3-23 所 示 ， 将 区 域 分 类 变量 映射 成 为 数值 型 变量 。 


Order LASR Order LASR 
Order ID Reglion 和 
1 Southwest 


Order ID Region Cd ... 


2 ast 
3 Northwest 
4 North 









sRegion. format: 
1 East 

2 North 

3 West 

a Southeast 

5 Northwest 







图 3-23 ” 自 定义 格式 
2. 大 平 表 VS 星 型 表 


在 LASR 服 务 器 加 载 大 数据 集 时 可 以 考虑 使 用 LASR 星 型 结构 : LASR 星 型 结构 与 关系 型 数据 库 中 的 星 型 结构 类 似 ， 由 保存 度量 详细 值 的 事实 表 和 包含 汇总 数据 层次 结构 特性 的 维度 
表 组 成 。 使 用 LASR 星 型 结构 可 以 带 来 以 下 好 处 : 


` 简单 的 查询 和 业务 报告 逻辑 : 星 型 结构 的 连接 逻辑 通常 比 从 高 度 规范 化 所 需 的 连接 逻辑 更 简单 。 
` 查询 性 能 提升 : 与 高 度 标 准 化 模式 相 比 ， 星 型 模式 可 以 为 只 读 报 告 应 用 程序 提供 性 能 增强 。 
` 快速 聚合 : 对 星 型 模式 的 简单 查询 可 以 提高 聚合 操作 的 性 能 。 
提供 立方 体 : 所 有 OLAP 系 统 都 使 用 星 型 模式 来 高 效 地 构建 专 有 的 OLAP 多 维 数据 集 。 
创建 LAsR 星 型 结构 的 视图 可 以 比 创建 星 型 结构 表 更 方便 并 节省 大 量 空间 ， 但 通过 视图 访问 数据 可 能 会 对 性 能 产生 一 定 的 负面 影响 ， 影 响 的 程度 取决 于 维度 表 的 大 小 。 
3. 使 用 计算 列 


LASR 计 算 列 是 由 表达 式 定义 的 列 。 计 算 列 不 占用 物理 存储 空间 ， 使 用 计算 列 可 以 提高 表 设 计 的 灵活 性 。 在 LASR 中 使 用 计算 列 并 不 会 导致 性 能 损失 ， 可 以 尽 可 能 多 地 使 用 计算 列 以 
取代 ETL 的 预 处 理 操作 。 下 面 是 在 PROC IMSTAT 中 使 用 计算 列 的 一 个 例子 ， 根 据 原始 数据 META_CORP 表 ， 新 生成 3 个 计算 列 ， 分 别 为 productName、NetProfit 和 UnitConditn。 


Proc imstat nopreparse; 
table lasrl.mega corp; 
Compute productName "productname=scan (productdescription, 1)"™; 
compute NetProfit "netprofit=Profit - ExpensesStaffing"; 
compute UnitConditn "If unitlifespan > unitage then unitconditn="'Past 
Due'; else unitconditn="'Good';"; 








quit; 


4. 使 用 压缩 


使 用 LASR 服 务 器 对 加 载 的 数据 集 在 内 存 实现 压缩 可 以 节省 最 高 达 90% 的 存储 开销 ， 在 使 用 LASR 压 缩 时 会 使 用 额外 的 CPU 资源 ， 让 加 载 时 间 变 长 。 在 使 用 前 需要 结合 实际 需求 判断 
是 否 将 数据 集 压 缩 。 下 面 是 一 个 使 用 squeeze=yes 选 项 对 数据 集 进行 压缩 的 例子 。 


libname example sasiola host="grid001.example.com" port=10010 tag=hps; 
data example.prdsale (squeeze=yes); 


set sashelp.prdsale; 
run; 


9. 行列 转 置 


在 图 3-24 中 ， 有 一 个 产品 交易 财务 表 ， 其 中 包含 产品 主键 (product) 、 交 易 日 期 (date) 、 账 目 (Account) 、 目 标 值 (Target) 和 实际 值 (Actual) 5 列 。 


product date Account Actual Target 





| AO001BE7 01Jan2013 sales 99.00 94.05 
A001BE7 01Jan2013 cos 84.15 80.78 
A001BE9 01Jan2013 sales 88.00 ” 83.60 
AO01BE9 01Jan2013 cos 74.80 71.81 
AO01BF4 02Jan2013 sales 77.00 "73.15 
AO01BF4 02Jan2013 cos 65.45 62.83 
A0O02CE8 05Feb2013 sales 99.00 ” 94.05 
A002CE8 05Feb2013 cos 84.15 80.78 
A002CE9 01Jan2013 sales 88.00 ” 83.60 
A002CE9 01Jan2013 cos 74.80 71.81 
A003DR6 02Jan2013 sales 99.00 ”94.05 
A003DR6 02Jan2013 cos 84.15 80.78 
8007GH6 05Feb2013 sales 55.00 ” 52.25 
B007GH6 05Feb2013 cos 46.75 44.88 
B008GH7 01jJan2013 sales 66.00 ” 62.70 
B008GH7 01Jan2013 cos 56.10 53.86 
B008GHS8 02Jan2013 sales 33.00 "31.35 
B008GH8 02Jan2013 cos 28.05 26.93 
A001BE7 05Feb2013 sales 55.00 "52.25 


图 3-24 产品 交易 财务 表 
从 财务 人 员 的 角度 ， 账 目的 出 入 标示 着 每 件 商品 的 流水 友 生 值 ， 然 而 从 数据 分 析 的 角度 而 言 ， 我 们 更 加 需要 的 是 从 产品 的 方向 看 哪些 产品 的 销量 大 ， 哪 些 产品 不 是 那么 热门 ， 哪 些 


产品 处 于 亏损 状态 。 显 而 易 见 ， 产 品 、 日 期 是 有 效 的 维度 列 ， 而 目标 值 和 实际 值 是 测量 列 ， 需 要 进行 行列 转换 ， 把 财务 标示 作为 不 同 的 两 列 ， 从 而 将 每 一 产品 的 目标 值 和 实际 值 拆 分 成 
四 列 ， 如 图 3-25 所 示 。 


product 





AUOLBE7 
A001BE9 
AO001BF4 
A002CES 
A002CE9 
A003DR6 
B007GH6 
B008CH7 
BO08GHS8 
A001BE/ 
A001BE9 
A001BF4 
A002CES 
A002CE9 
A003DR6 
BO07GH6 
BOO08GH7 
BOO08GHS 


6. 增 加 时 间 维 度 


在 汇总 分 析 中 ， 可 能 需 


多 的 实际 维度 信息 。 


为 了 将 交易 日 期 进行 进一步 的 拆 分 ， 


prox |uct 


7. 增 加 更 多 有 效 维 度 


从 交易 表 中 可 以 看 出 ， 分 析 分 类 的 主要 依据 是 时 间 维 度 和 产品 主键 。 市 场 分 析 和 预测 则 需要 从 更 多 的 角度 进行 。 假 设 7 位 产品 主键 的 第 1 位 (如 A) 代表 了 产品 
代表 了 产品 线 名 称 (如 001) ， 最 后 一 位 (如 7) 代表 了 规格 大 小 。 这 样 我 们 可 以 额外 拆 分 出 三 个 维度 进行 更 深 一 步 的 探索 ， 如 图 3-27 所 示 。 


date 
01lJjan2013 
01lJjan2013 
02Jan2013 
05Feb2013 
01lJjan2013 
02Jan2013 
05Feb2013 
01Jan2013 
02Jan2013 
05Feb2013 
01lJan2013 
02Jan2013 
05Feb2013 
0lJan2013 
02Jan2013 
05Feb2013 
0ljJan2013 
02Jan2013 


要 用 到 按 月 过 滤 、 按 年 过 滤 数 据 ， 或 者 进行 月 度 汇 总 、 年 度 汇总 ， 也 有 可 能 进行 按 月 预测 、 按 年 份 预测 。 同 样 使 用 上 例 的 产品 交易 财务 数据 ， 我 们 会 增加 更 


sales 
99.00 
88.00 
77.00 
99.00 
88.00 
99.00 
55.00 
bb.UU 
33.00 
55.00 
44.00 
55.00 
88.00 
77.00 
55.00 
88.00 
99.00 
66.00 


图 3-25 ”行列 转换 后 的 财务 表 


cos sales target 


84.13 
714.80 
65.45 
84.1> 
14.80 
84.15 
46.75 
20.10 
28.05 
46.75 
37.40 
40.7> 
714.80 
65.45 
46.75 
14.80 
36.10 


提取 出 每 一 条 交易 对 应 的 月 份 和 年 度 ， 需 要 新 增 两 列 时 间 维 度 ， 如 图 3-26 所 示 。 


Transaction Date Transaction Day Transaction Month 


01Jan2013 
0lJan2013 
02Jan2013 
05Feb2013 
0lJan2013 


Tuesday 
Tuesday 


Wednesday 


Tuesday 
Tuesday 


图 3-26 新 增 时 间 维 度 


Jan2013 
Jan2013 
Jan2013 
Feb2013 
Jan2013 


34.05 
83.60 
713.15 
94.05 
83.60 
94.05 
2.25 
62.70 
31.33 
32.25 
41.80 
sp 
83.60 
13.15 
32.25 
83.60 
34.05 
62.70 


Transaction Year 


2013 
2013 
2013 
2013 
2013 


Cos target 


80.78 
11.81 
62.83 
80.78 
11.81 
80.78 
44.88 
23.80 
20.93 
44.88 
35.90 
44.88 
11.81 
62.83 
44.88 
11.81 
80.78 
23.86 


品牌 ， 主 键 第 2~4 位 


product Product Brand Productline Product Size 





A0O01BE7 
A001BE9 
AO01BF4 
A002CE8 
A002CE9 
A003DR6 
B007GH6 
B008GH7 
B008GH8 


DWPmOPPPPpPDpD 


001 
001 
001 
002 


CO Nm 上 oo J 


图 3-27 ” 拆 分 出 新 维度 


经 过 行列 转 置 、 增 加 时 间 维 度 、 增 加 更 多 有 效 维 度 ， 我 们 可 以 看 到 虽然 数据 提供 的 信息 没有 变化 ， 但 新 的 数据 集 提供 更 多 维度 ， 从 更 多 和 角度 进行 产品 竞争 力 分 析 和 财务 分 析 ， 并 可 


以 提高 分 析 性 能 ， 如 图 3-28 所 示 。 





让 fdut Product Brand ProductLine Preduct Sire 
AODL1BE? 丙 001 了 
AOO1BES 总 [a 章 
ACOl BF4 Qol 时 
ADOaCEB 吕 D02 号 
MOD2CES 吕 O02 | 
AOOI ORS EE Oa [a 
BODO7GHE BB [i 梧 
BOSGH7 B DOg 7 
BCBG HE 目 Doe 号 
AOOL1BE? 吕 01 Es 
ADdBES 总 001l 时 
ADD1lBFS 站 Dol 四 
BODOZ2CEB 丙 003 号 
AOD2CES 吕 oo 章 
ADOS3DRG 下 D0s 忆 
BOOT7GHE6 B D07 后 
BOO0SEH? BB [Ee 7 
DOOgGHa :| Doe 蚂 


图 3-28 新 的 数据 集 


3.4 如 何 使 用 Visual Data Builder 准 备 数据 


3.4.1 使 用 Visual Data Builder 的 场景 


除了 SAS Visual Data Builder，SAS 提 供 了 一 系列 的 数据 管理 产品 


“ SAS Access 


* SAS Data Integration Server 


“ SAS Data Quality 


“ SAS Data Governance 


* SAS Data Management 


， 包 括 数据 质量 处 理 到 高 级 数据 管理 ， 如 : 


使 用 Base 进 行 Data 步 和 PROC SQL 编程 也 可 以 作为 最 基本 的 数据 处 理 手段 。 那 么 ， 什 么 时 候 适 于 用 SAs Visual Data Builder 处 理 数据 ”上 总结 起 来 ， 有 以 下 几 条 规律 可 循 : 


` 处 理 已 经 经 过 了 Join、Append (追加 表 ) 和 Column 计 和 工 ， 并 保存 在 LASR 服 务 器 上 的 数据 


` 处 理 需要 进行 简单 的 表 Join， 数 据 过 滤 ， 单 表 查 询 的 数据 


需要 考虑 引入 额外 处 理 步 又 或 产品 的 情况 则 包括 : 
. 需要 复杂 Join 等 数据 操作 的 
需要 和 交易 型 数据 进行 Join 的 
需要 增加 timestamp 类 型 字段 的 数据 


需要 进行 数据 转 置 的 数据 


3.4 如 何 使 用 Visual Data Builder 准 备 数据 


3.4.1 使 用 Visual Data Builder 的 场景 


除了 SAS Visual Data Builder，SAS 提 供 了 一 系列 的 数据 管理 产品 ， 包 括 数 据 质量 处 理 到 高 级 数据 管理 ， 如 : 
“ SAS Access 

. SAS Data Integration Server 

. SAS Data Quality 

* SAS Data Governance 

. SAS Data Management 

使 用 Base 进 行 Data 步 和 PROC SQL 编程 也 可 以 作为 最 基本 的 数据 处 理 手段 。 那 么 ， 什 么 时 候 适 于 用 SAs Visual Data Builder 处 理 数据 ? 总 结 起 来 ， 有 以 下 几 条 规律 可 循 : 
. 处 理 已 经 经 过 了 Join、Append (追加 表 ) 和 Column 计 算 ， 并 保存 在 LASR 服 务 器 上 的 数据 

` 处 理 需要 进行 简单 的 表 Join ， 数 据 过 滤 ， 单 表 查 询 的 数据 

需要 考虑 引入 额外 处 理 步骤 或 产品 的 情况 则 包括 : 

需要 复杂 Join 等 数据 操作 的 

` 需要 和 交易 型 数据 进行 Join 的 

需要 增加 timestamp 类 型 字段 的 数据 


需要 进行 数据 转 置 的 数据 


3.4.2 ”导入 数据 


使 用 Data Builder Administrator 用 户 登录 准备 数据 页 面 。 用 户 可 以 通过 在 SAS Visual Analytics Hub 中 选择 数据 准备 的 图 标 或 者 单 击 左 侧 导航 栏 的 数据 准备 链接 进入 到 数据 准备 
页 面 ， 如 图 3-29 所 示 。 


三 SASe 主页 


SAS Visual Analytics 


jj 去 SR 


| 


报表 设计 器 








欢迎 ,Lynn ! 最 近 使 用 项 : 收藏 夹 : 链接 
BET 当 您 打开 对 条 时 ， 最 近 使 用 的 内 容 将 在 此 处 显 您 标记 为 收藏 项 的 内 容 将 在 此 处 显示 。 立 即 或 稍 链接 将 在 此 处 显示 。. 
此 处 是 一 些 快速 提示 : = 后 添 jl 
示 . 后 添加 收藏 项 。 

。 将 应 用 程序 快捷 方式 添加 至 主页 。 您 可 以 定制 颜色 和 名 称 。 aVisual Analytics Se 
。 点 击 横幅 中 "SASs 主页 "旁边 的 图 标 ， 使 用 侧面 茉 单 访问 应 用 程序 。 
。 选择 您 的 名 字 并 点 击 " 注 销 ”, 即 可 从 应 用 程序 中 注销 。 
。 加 入 SAS 社区 ， 参 与 有 关 小 技巧 和 最 佳 实 践 的 热烈 讨论 : https://communities.sas.com/welcome 














Student Analy 





Doooooo 


图 3-29 SAS Visual Analytics Hub 界 面 


在 “准备 数据 ”页 面 ， 通 过 选择 导入 数据 ， 可 以 进入 导入 数据 的 弹出 窗口 ， 如 图 3-30 所 示 。 


在 此 窗口 中 ， 有 4 组 数据 分 组 ， 分 别 是 : 本 地 数据 (Microsoft Excel、 文 本 文件 、SAs 数 据 集 ) ， 服 务 器 (MySQL、Oracle 等 ) ，Hadoop (Cloudera、Hortonworks 等 ) ， 其 
他 (Facebook、Google Analytics 等 ) ， 如 图 3-29 所 示 。 下 面 将 挑选 几 个 常用 典型 数据 进入 导入 操作 。 





交尾 TIASRE ”工具 帮助 
新 建 数 据 查 区 





图 3-30 ”导入 数据 


1. 导 入 CSV 数 据 


首先 ， 从 客户 端 操作 系统 中 导入 一 份 csv 数 据 文件 ， 除 了 SAS 文 件 夹 位 置 和 多 辑 库 设置 ， 通 常 不 需要 修改 默认 设置 ， 系 统 会 自动 判断 表 头 信息 和 编码 ， 如 图 3-31 所 示 。 导 入 成 功 后 
的 LASR 数 据 会 在 LASR 目 录 中 显示 。 


导 人 文本 文件 
源 文件 
源 交 件 : FT _ Subset.csv 
分 也 人 主 : 


回 返点 吕 55 全 加 制 变 符 


回 窜 一 行 包 诗 到 名 
故 据 记录 起 始 行 : EE ”全 
要 委 找 的 行 教 加 
绸 后 : [Earl | | 


瑟 炳 : 过 | 下 T_ Subset 


‘Orion Sales'Ornion LASR Data 
‘Orion Sales/Orion LASR DataOrion LASR Library 
[Vi 促 显 示 SSLASR Analvtic Server 当 辑 库 


压缩 数据 (对 干 叶 入 的 吉 ) 





图 3-31 导入 CSV 数 据 文件 


2. 导 入 Excel 数 据 
接 下 来 ， 导 入 一 份 Excel 表 数据 ， 点 击 导入 选择 Microsoft Excel 格 式 文 件 ， 在 弹出 的 对 话 框 中 选择 工作 表 并 制定 起 始 导入 行 ， 如 图 3-32 所 示 。 可 以 点 击 “ 预 览 ”按钮 ， 依 次 观察 每 


一 sheet 中 的 数据 (出 于 性 能 考虑 ， 预 览 最 多 显示 500 行 ) 。 





导 信 Microsoft Excel 区 件 x 


~ i 


工作 注 : Sales Summary .sx 





琉 桩 工作 讲 : 


MV| 全 部 











想 嫩 导入 行 : | 1 = IV] 包括 到 


下村: ## | Sales Simmmary 





名 用: | 已 由 “Lynn 干 2017 年 3 月 10 日 星期 五 GMT+0800 下 午 050104 分 36 人 从 “Sales 
Stummnary .Rs 中 可 上 





位 重 : ‘Orion Sales/Orion LASR Data 


山 于 


3 得 诺 :| /Orion SalesDrionLASR DatauOrioanLASR Library 





[| 仅 显示 SASLASR Analytic Server 这 贺 库 


LL 压缩 数据 (对 干 导入 的 于) 





图 3-32 ”导入 Excel 文 件 


需要 注意 的 是 ，Excel 中 如 果 包 含 多 个 sheet， 则 导入 完成 后 每 一 个 sheet 页 的 数据 将 对 应 到 一 个 LASR 数 据 表 并 存在 LASR 服 务 器 中 。 


3. 导 入 SAS 数 据 集 


选择 本 地 SAs 数 据 集 并 导入 ， 由 于 过 程 和 上 面 类 似 ， 在 此 不 展开 详 述 。 


4. 导 入 Oracle 数 据 


在 服务 器 类 别 中 选中 Oracle， 弹 出 的 界面 如 图 3-33 所 示 。 


用 户 只 需要 配置 用 户 ID、 密 码 、 路 径 和 模式 名 便 可 以 浏览 所 有 可 见 的 表 。 需 要 注意 路 径 名 和 模式 名 均 需 要 严格 大 写 。 如 果 该 次 导入 失败 ， 可 以 点 击 操作 日 志 来 浏览 此 次 执行 的 SAS 


过 程 ， 定 位 并 发 现 问 题 。 








围 ACKAMA a 
团 ARLINE2007 
时 ALL TYPES 
团 AZERTY 

轩 BIGCLASS 
团 BINDBL 





上 CLASS 

时 CLIENTS 

时 CLIENTS 

上 CUSTOMER DAY 1 
上 CUSTOMER DIM 
时 DBNEW 

时 DEMO 

上 DEPT 





| 重新 加 其 珀 有 下 











图 3-33 ”导入 Oftacle 数 据 


3.4.3” 表 碍 询 和 表 连 接 


Visual Data Builder 中 定义 的 查询 (Query) 不 同 于 SQL 语法 中 的 查询 ， 而 是 一 系列 对 数据 集 进行 数据 准备 操作 的 集合 ， 包 括 : 
. 输入 表 

. 输出 表 和 暂 存 (staging) 表 

. 表 连 接 

. 聚合 操作 


计算 列 


图 3-34 是 Visual Data Builder 的 界面 展示 ， 用 户 已 经 将 三 张 表 ORDER_FACT、TIME_DIM 和 GEOGRAPYH_DIM 拖 入 编辑 区 。 





文 信 LASR 。 工具 。 帮助 革 面 26°% 连 过 
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园 oRIOYN_DASHBOARD LASR 

图 PROFIT_ co_pPROD_ MONTH_LASR 
园 icELTOYS 

时 sALEs SUMMARY SHEFT] 


Serest_D 
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Dekvery De 
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Orie_ID 鲁 Dxe_iD Cowsty 
园 sALEs SUMMARY SHEET? Oe i ca 
园 satzs sUMMARY SHEET3 eh A Focal Code 
~ 用 on-- Qom= A Meatl Se 和 
面 FE Qt Meowh Na Nam 
> 和 produets Total_Retal_price A Wok Nene | 
四 可 Shared Da CostPrnee_ Per_ Uva 心 Wokdry Nem 
> 条 Jo Folse @ Mouh Num 
> 图 \Daorae Fold« @ Te Nm 
-ee @ We Nem 
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图 oRDER FACT + XxX 0 
ORGANIZATION_DEIM 生 守 入 志波 让 训 
FRODUCT_DIM 
四 Taiz pm ORDER FACT 人 前 GEOGRAPHY DIM 
» 用 RiFolax Ff 粮 下 伯 
» 图 4S Visua Anahts 
» 项 smaent Fois= + x 
>» 9 .一 ORDER FACT GEOGRAPHY DIM 
» Use Folde: Street_ID Street_iD 





图 3-34 Visual Data Buildet 春 面 
使 用 Visual Data Builder， 用 户 可 以 验证 查询 是 否 准确 ， 并 保存 查询 结果 ， 打 开 查 询 并 创建 更 多 子 查询 。 


如 图 3-35 所 示 ， 用 户 可 以 创建 表 查 询 ， 并 点 击 验证 按钮 区 验证 查询 的 有 效 性 ， 点 击 运行 按钮 区 预览 或 运行 该 数据 查询 ， 点 击 添加 查询 按钮 十 将 更 多 的 表 添 加 到 此 查询 中 。 用 户 可 以 
将 查询 返回 的 结果 进行 保存 至 某 SAS 文 件 夹 ， 以 便 下 次 启动 LASR 服 务 器 并 加 载 该 表 后 仍 能 像 上 次 一 样 ， 返 回 查 询 结果 。 


Dataquery1 其 
设计 | 代码 | 结果 


国 ORDER FACT A 
(Customer Id [| 


图 3-35 ”操作 表单 


下 面 将 具体 讲述 如 何 利用 SAS Visual Data Builder 进 行 连接 操作 ， 如 增加 、 删 除 和 调换 左右 连接 的 表 顺 序 。 


正如 标准 SQL 所 做 的 那样 ，Visual Data Builder 可 以 支持 inner joins、left joins、right joins 和 full joins。 读 者 可 以 将 Orion Star 目 录 中 的 事实 表 ORDER_FACT 和 维度 表 
TIME_DIM 及 GEOGRAPHY_DIM 拖 入 编辑 区 中 ， 系 统 会 自动 将 事实 表 和 维度 表 中 同名 的 主键 一 一 连接 。 在 此 例 中 ，ORDER_FACT 和 GEOGRAPHY_DIM 表 由 于 拥有 共同 的 名 为 
Street ID 的 数值 主键 ， 系 统 将 这 两 张 表 自 动 连接 。 除 此 外 ， 用 户 需 要 手工 配置 ORDER_FACT 和 TIME_DIM 的 连接 关系 。 点 击 连接 选项 卡 ， 根 据 数 据 字典 设计 ， 将 Order Date 和 
Date_1D 添 加 内 部 连接 (INNER JOIN) ， 如 图 3-36 所 示 。 


| Where | 


Having | 这 楼 | 输出 列 | 消息 | 日 志 Eee 





十 尖 埋 村 轴 
左 守 入 楼 六 型 古老 


OFDER FACT 向 部 GEOGRAPHY DIM 





诈 榨 年 件 : 
十 汇 
DRDER FACT TE DMI 


图 3-36 ”添加 连接 


如 图 3-37 所 示 ， 用 户 点 击 选中 三 个 表格 中 关心 的 列 ， 如 ORDER_FACT 表 中 的 订单 类 型 (Order Type) 、 产 品 ID (Product ID) 、 数 量 (Quantity) 等 列 ， 选 中 的 列 将 会 展示 在 
列 编辑 器 的 表格 当中 ， 用 户 可 以 修改 每 一 列 的 数据 类 型 、 数 据 格式 等 信息 。 如 将 Fiscal_ Month_Num 和 Order Type 数据 类 型 修改 为 字符 型 。 


连接 完成 后 的 表 不 但 有 订单 数量 、 价 格 等 度量 信息 ， 也 包含 时 间 、 地 理 位 置 等 维度 信息 。 通 过 Where 面板 可 以 从 关心 的 维度 选择 观测 度量 值 : 在 此 例 中 我 们 选择 地 理 维度 表 
GEOGRAPHY_DIM 的 Continent 列 ， 过 滤 出 来 亚太 区 域 的 数据 ， 如 图 3-38 所 示 。 


熟悉 Where 使 用 的 用 户 也 可 以 在 SQL 表达 式 文 本 区 直接 编辑 SQL 语句 ， 如 图 3-39 所 示 。 


Pm Wase ea [esl 


列 扣 者 直 式 故 弄 入 式 标签 
1 Fiscal_ Quarter TIME_DIM Fiscal_Quarter CHARACTERIS) | Fiseal Quarter 
3 Fiscal Year TIME_DIM Fiscal Year CHARACTERY) | Fiseal Year 
3 Fiscal Month Mum TIME_DIM Fiscal Month Mum CHARACTERI ,| Fiscal Month Number 
4 Cantineat GEOGRAPHY DIM Continent CHARACTER3O, | Continent Name 
Conmtrmy GEOGRAPHY DIM Country CHARACTERD) SCOUNTRY. Comntr Abbreviation 


CHARACTERO | | z 
71 pon m ORDER FACT Product ID NUMERIC 12 Product ID 





Quartity ORDER FACT.Quantity NUMERIC Quantity Ordered 
9 CostPrice Per Umit ORDER FACT.CostPrie Per_ Unt NUMERIC DOLLARI13.2 2 Cost Prce Per Un 
10 Daseenmt ORDER FACT. Discownt NUMERIC PERCENT. Discount m percent of Mor... 
+ Total Retail _ Prize ORDER FACT.Total Ratal Prnece NUMERIC DOLLAR13.2 Total Ratail Price for This PF.. 


图 3-37 ” 列 编辑 器 界面 





Iw Australia/Pacific 
L | Europe 

L | North America 

| | South America 





图 3-38 设置 过 滤 值 


SQL expression; 





GEQOGRAPHY DIM.continent IN (C'So0uth Armerica ,North America AM 
ORDER_FACT.Discount gt ol 


图 3-39 ”编辑 SQL 语句 
在 列表 达 式 中 添加 新 的 一 行 ， 通 过 拖拉 现 有 的 字段 和 运算 函数 ， 完 成 SQL 表达 式 。 在 此 例 中 用 户 编写 了 如 下 的 查询 条 件 : 
GEOGRAPHY DIM.Continent IN ('South America', "North America') AND ORDPR FACT.Discount gt0 
之 后 新 建 一 列 计算 列 名 为 Total_Cost， 用 来 统计 每 一 产品 的 总 价值 ， 表 达 式 为 产品 单价 乘 以 数据 量 。 裁 音 完 成 后 的 列 汇总 如 图 3-40 所 示 。 


Visual Data Builder 提 供 对 度量 值 的 聚合 计算 ， 包 括 分 组 (group by) 和 聚合 函数 (AVG，COUNT，MAX，MIN，STD，SUM) 。 在 此 例 中 ， 我 们 将 来 自 于 事实 表 的 折扣 后 价 
格 (Discounted_Price) 和 总 价 (Total_Cost) 作为 聚合 函数 列 (使 用 SUM) ， 将 其 余 7 列 作为 分 组 列 ， 如 图 3-41 所 示 。 


Det | ee | rns | [| 二 | 



























































| 列 名 老 法 式 | 类 型 恪 式 标签 | 

| 1 | 证 TIME DIM Fiscal Quarter | CHARACTERIG) , Fiscal Quarter 

| Fiscl Yom TIME DIM Fiscal Year | CHARACTERI) | Fiseal Year 

3 Re TIME DIM Fiscal Month Num | CHARACTERO | Fiscal Month Number 
|4 | Continent GEOGRAPHY DINM Continent | CHARACTER(30) | Continant Name 
|s Country GEDGRAPHY DINM Country CHARACTERC SCOUNTRY. Country Abbreviation 

6 Ore Type DRDER FACT Order Type | CHARACTERO ORDER TYPE ~ | OrderType 

7 Prodnd 站 ORDER FACT Product ID NUMERIC 12. ,Product ID 

8 | Discomted Price ORDER FACT Total Retail Price { | NUMERIC DOLLAR13. , New Discounted Price 

+ | Total Cost ORDER. FACT CostPrice Per_Unit | NUMERIC DOLLAR132 | Total Cost 


图 3-40 ”裁剪 完成 后 的 列 


列 编 畔 吉 | Where | Havins | 连接 | 输出 列 | 消息 | 日 志 


到 上 漠 
1 Fiscal Quarter 
了 Fiscal Year 
4 Frscal Month Mom 
4 (omt ment 
(Country 
机 Ordear Type 
7 Prodoct_ ID 
昌 hsconmted Price 
| 十 Tatal_ Cost 


完成 数据 编辑 后 ， 
据 查 询 ， 并 运行 ， 得 到 如 图 3-42 所 示 结 


点 击 快速 编辑 栏目 中 的 


老 波 式 

TIME DD Fiseal Quarter 

TIE DD Fiscal Year 

TIME DD Fiseal Month Num 
GEOQOGRAPHY DINM Contment 
GEOQOGRAPHY DIM .Country 
ORDER FACT.Order Type 

ORDER FACT.Product ID 

OFDER FACT.Total Retal Price 二 
ORDER FACT.CostPrice Per Unit 


图 3-41 


钨 证 查询 ， 可 以 检查 此 次 编辑 是 否 包含 语法 错误 。 


站 而 
CHARACTER(G) 
CHARACTERG 
CHARACTERN 
CHARACTERGO) 
CHARACTERO) 
CHARACTERO 
NUMERIC 
NUMERIC 
NUMERIC 


对 表 进 行 聚合 


蛋 式 


SCOUNTRY. 


DEFDER. TYPE 


12. 
DOLLAR13.2 
DOLLAR13.2 


如 果 系 统 显示 查询 有 效 ， 则 可 以 继续 后 面 的 步骤 


将 该 查询 形成 的 新 表 信 息 和 数据 输出 ， 并 勾 选 使 用 暂 存 表 选 项 ， 这 将 使 数据 集 额 外 存储 到 HDFS 中 (如 图 3-43 所 示 ) 。 


接 到 现 有 表 名 后 。 


注意 的 是 ， 在 属性 选项 卡 中 ， 默 认 选 择 了 SQL 查询 视图 (如 图 3-44 所 示 ) 。 


VIEW 语句 减少 存储 需求 和 数据 传输 。 


查询 视图 上 5 


FF 入 

Fiscal tharter 

Fiscal Year 

Fiscal Month Mmnber 
Contiment Marme 
Country Bbbreviatiom 
Drder Type 

Product DD 

New scounted Price 


Total Cost 


注意 的 是 


暂 存 表 名 不 可 修改 ， 





宗 写 
GROUP BY 
ROUP BY 
GROUP BY 
GROUP BY 
GROUP BY 
GROUP BY 
GROUP BY 
SU 

SU 


否则 需要 修改 之 前 的 查询 。 保 存 此 数 


系统 会 直接 将 _STG 后 缀 拼 


只 对 保存 库 为 传统 SAS 数 据 集 SAS7BDAT 和 传统 关系 型 数据 库 生 效 ， 用 来 创建 CREATE 
需要 注意 的 是 ， 在 本 例 中 ， 数 据 分 别 被 保存 至 LASR 分 析 服 务 器 和 HDFS 中 ， 而 这 两 类 存储 类 型 是 不 支持 查询 视图 模式 的 。 








与 | 曾 驶 | 局 | 屠 
> My Folder 
r [i Demos 
> Infomation Maps 
v [al Orion Sales 
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图 ,CARS LOCAL LASR. 
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> [| Orion Queries 
> 图 Orion Rep orts 
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v0 shared Data 
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= 项 MailOrder Folder 
> | | NewStar 
> [a Oricn Folder 
办 [| Oricon Sar Folder 
园 cUsTOMER_DINM 
园 GEoGRAPHY DIM 
团 ORDER FACT 
图 oRGANIzATION DIM 
园 PRODUCT_DIM 
园 TIME_D™M 
| Rassl Folder 
> SAS Visual Analytics 
> Student Fold= 
pb [il System 
>» User Folders 


















































DataQuery 1 
Ra + 褒 插 示 结 时 
& 计 | 代码 | 结 时 输入 | 御 出 | 属性 | - 
转 至 行 : 时 四 再生 | 关中 时 | 世相 | | 名 称 : DataQuery1 
Fiscal Qua. Fiscal Year Fiscal Mo... Contment | Country QOrder Type Product ID Discounted.. Total Cos... 位 年 : /My Folder 
1 2008Q1 2008 2 North Ame. United State: Retail Sale 220100300... $543.08 $585.86 Ee 说 明 - 
2 2008Q1 2008 2 North Ame. United State: Retail Sale 240300100... $190.28 $306.68 
3 2008Q1 2008 2 North Ame. United State: Retail Sale 240800100... $67.67 $112.52 
- 2008Q1 2008 2 North Ame. United State: Catalog Sale 240800100... $204.4 $336.29 
3 2008Q1 2008 2 North Ame. United State: Internet Sale 240800100... $67.67 $112.52 
6 2008Q1 2008 3 North Ame United State: Catalog Sale 230100400... $19.71 $2735 [ | 建 SQL 去 询 视图 
2008Q1 2008 3 North Ame. United State: Catalog Sale 240800200... $61.98 $126.41 加 
8 2008Q2 2008 5 North Ame United State: Retail Sale 3240100400... $281.99 $467.98 Es 
9 2008Q2 2008 5 North Ame. United State: Catalog Sale 240100400... $375.03 $679.90 加 全 本 @@ 
10 2008Q2 2008 5 North Ame. United State: Catalog Sale 240100400... $702.14 $1.284.65 
11 2008Q2 2008 5 North Ame. United Sate: Intemeat Sale 240100400... $1.40993 $2,339.90 
12 2008Q2 2008 6 North Ame. Canada Catalos Sale 240200100... $21.69 $16.50 
13 2008Q2 2008 6 North Ame. Canada Intermat Sale 240200100... $503.35 $547.43 
14 2008Q2 2008 6 NorthAme. United State: Retail Sale 240200100... $54.24 $41.24 
15 2008Q2 2008 6 North Ame United State: Retail Sale 240200100... $503.35 $547.43 : 
16 2008Q2 2008 6 NorthAme. United State: Retail Sale 240200100... $5.90 $4.23 ) 
17 2008Q2 2008 6 NorthAme. United State: Retail Sale 240400300... $9725 S111.04 = 
18 2008Q2 2008 6 North Ame. United State: Catalog Sale 240600100... $82.89 $71.91 
19 2008Q2 2008 6 North Ame. United State: Catalog Sale 240700400... $136.15 $204.31 
20 2008Q2 2008 6 North Ame. United State: Catalog Sale 240700400... $40.56 $52.03 
21 2008Q2 2008 6 North Ame United State: Intemat Sale 240700400... $46.49 $5922 
2 2008Q2 2008 6 North Ame. United Sate: Intermat Sale 240700400... $47.34 $54.71 
23 2008Q3 2008 7 North Ame. Canada Internet Sale 240200100... $84.58 $116.61 
34 2008Q3 2008 7 North Ame. United Sate: Retail Sale 210200900... $89.75 $30.44 
25 2008Q3 2008 7 North Ame. United State: Retail Sale 210201000... $38.80 $81.22 
26 2008Q3 2008 7 Nerth Ame. United State: Retail Sale 210201000... $7.88 $0.56 
27 2008Q3 2008 7 North Ame United State: Retail Sale 220100100... $165.79 $167.51 
28 2008Q3 2008 7 North Ame. United State: RetailSale 220100100... $100.61 $98.14 
29 2008Q3 2008 7 North Ame United State: Retail Sale 220100700... $396.71 $374.36 
30 2008Q3 2008 7 North Ame. United State: Retail Sale 220100800... $29.59 $29.89 
31 2008Q3 2008 7 Nerth Ame. United State: Retail Sale 220101300... $172.53 $194.58 
32 2008Q3 2008 7 North Ame. United State: Retail Sale 220101400... $41.43 $37.51 
33 2008Q3 2008 7 North Ame. United Sate: Retail Sale 220200100... $483.56 $489.55 一 
| 第 1 页 ( 共 14 页 ) ”13 江 行 履 页 面 大 小 : 100 
图 3-42 ”查询 结果 








老 : CombinedOrderInfo stg 
而 机 -起 Orion Sales/'Onion LASR Data 


他 和 糙 库 : ‘Oriwn Sales iron HDFS DatawWnon HDFS Library 





压 薄 但 己 复 园 框 划 用 干 稍 出 者 彻 柯 平 老 . 


图 3-43 ”储存 数据 集 


输入 | 输出 | 质 性 | | " 
名 种- DataQuery1 
它 晤 : IT Folder 


可 询 由 *Lymn" 于 2017 年 3 月 10 日 星期 五 GNT+0800 下 午 05 时 19 分 28 种 冲 建 





国 创建 SQL 碍 论 视 图 


图 3-44 ”数据 集 属性 


3.4.4 ”导入 Information Map 查 询 


SAS Information Map 是 一 种 SAS 独 有 的 ， 用 来 描述 数据 结构 和 定义 数据 查询 的 文件 类 型 。Information Map 本 身 并 不 包含 任何 物理 数据 ， 可 以 通过 SAS Information Map 
Studio 或 者 PROC INFOMAPS 过 程 步 产生 ， 而 Visual Data Builder 不 能 创建 或 编辑 iInformation Map， 但 可 以 在 Information Maps 文 件 夹 中 选择 导入 查询 方式 打开 ， 正 如 图 3-45 所 


小 \。 
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图 3-45 ”导入 Information Map 查 询 


在 代码 窗口 ， 可 以 看 到 已 经 生成 的 查询 代码 ， 如 图 3-46 所 示 。 





DataQuery | =Coumntry Sales with Prompted filter | 


HR 十 其 本 棒 志 法 音 


代码 | 结果 | 


所 有 代码 | 预 妈 理 | 司 站 理 


TEC | 


58|options Locale=en US; 

59 |LIBNAME orstar BASE " /opt/sasinside/vaconiig/Levi/,SAsApp/Data/orstar",; 
60| 

G1 | 

52 |PROC SGL ; 

63|Create view TEMP LASR VIEW 0 as 

654|3ELECT 

55| table0 .Country AS Country LABEL='Country Abbreviation ’', 

56| table0 .Region AS Region LABEL='Region Name', 

67 | tablel.Guantity AS Quantity LABEL=' Quantity Ordered', 

68| tablei.Total Retail Price AS Total Retail Price LABEL='Total Retail Price for This Product', 
69| tablel .Order_Type As Order_Type LABEL=' Order TYPe ， 

70| tablel.Product ID AS Product ID LABEL='Product 工 D 

71 |FROM 

?2| orstar .GEOGRAPHY DIM tabled Inner join orstar.0ORDER FACT tableil on table0.Street ID = tablel.Sstreet ID ; 





rdlquit; 
了 可 


| 

| 

| 
过 号 | PIPE catalog catalog-APFMTLIB .ORIONFMT:; 
| copy out=work.iqgfmts; 
rr| select GOUNTRY. FORMATGC 
78| ORDER_ TYPE .FORMAT:; 

| 
79 run: 
80 |quit: 
a 

CLE 性 。 下 下 下 盏 下 


图 3-46 ”Information Map 查 询 代码 

















用 户 在 运行 查询 后 ， 观 察 返回 的 数据 集 条 目 是 否 是 预期 中 的 结果 ， 并 可 保存 该 结果 输出 至 LASR 表 ， 如 图 3-47 所 示 。 





| | 压 靖 你 氮 




















图 3-47 输出 至 LASR 表 


这 样 就 实现 了 从 Information Map 查 询 提取 数据 加 载 到 LASR 服 务 器 的 过 程 ， 传 统 的 SAS Information Map 查 询 可 以 平滑 地 过 渡 到 分 布 式 的 LASR 内 存 分 析 服 务 器 中 进行 使 用 。 


3.4.5 ”追加 表 


首先 ， 以 Visual Analytics 管 理 员 身份 登录 并 查看 已 加 载 的 LASR 表 ， 如 图 3-48 所 示 ， 可 以 在 LASR 表 选项 卡 中 看 到 ， 加 载 的 PROFIT CO_PROD MONTH_LASR 表 已 经 有 549140 
行 ， 但 这 仪 仅 保 存 了 2012 年 第 一 个 月 的 记录 ， 我 们 需要 将 另外 一 张 表 拼接 至 该 表 后 面 。 


_LASR 服务 器 *| HDFS *| LASR 来 * 








《49 汉 | 回 | 定 Gi 丰 兽 | [MW 度 项 卡 初 站 化 时 获取 杖 坊 取消 





[| VA SAMPLE RETAIL RO MD CANDI.. 各 106.43 MB /Products/SAS Visual Anakyt... Public LAS.. 32017-03-10 上 午 04201 53.045 Visual Anal Auto loaded March 10. 2017 401:32 AM 


图 3-48 已 加 载 的 LASR 表 
使 用 LASR 服 务 器 加 载 一 张 名 为 NEW_MONTHS 的 新 表 至 内 存 中 ， 并 命名 为 NEWMONTHS_LASR 表 ， 加 载 成 功 后 如 图 3-49 所 示 。 


LASR 服务 器 * | HDFS x | LASR 实 *| 


9 屎 | 问 | 定 Gi 贞 兽 | 加 这 项 卡 初始 化 时 获取 护 态 。 | 取消 天 Ir] 入  ) 

本 1 孜 -: 杖 态 大 小 | 位 对 丽 务 器 加 苇 时 问 行 | 逐 辑 库 太阴 

口 125.68 MB /Orion Sales/Orion LASR Data Orion Sales.. 2017-03-10 上 午 03:19 。 549.140 Orion LAS.. 

门 | VASAMPLE RETAIL RO MD CANDI.| ® 106.43 MB /Products/SAS Visual Analyt... Public LAS.. 2017-03-10 上 午 0401 C53.045 Visual Anal. Auto loaded March 10,2017 401:32 AM 
门 | GEOGRAPHY DIM 六 26.72 MB /Shared DataSAS Visual Ana. PublicLAS. 2017-03-10 上 午 04:00 。。 89.807 Visual Anal. Auto loaded March 10. 2017 400:39 AM 





I VA SANMPIF RFTAT. RO COST GT OC 量 ?2783 MRPrndqnrftsSAS Vicnal Anahkrt Pubhc TAS 32017-03-10 上 午 (401 11170 Vsnal Anal Anto laaded March 10 2017 40127R8 AM 


图 3-49 ”加载 NEWMONTHS LASR 表 
之 后 使 用 Visual Data Builder 用 户 身份 登录 系统 并 进入 数据 准备 页 面 ， 从 主 菜单 LASR 中 选择 追加 表 ， 如 图 3-50 所 示 。 
保存 此 查询 后 运行 ， 返 回 的 结果 告诉 我 们 第 二 张 NEWMONTHS LASR 表 已 经 成 功 添加 至 原始 表 中 ， 新 表 总 行 数 为 先前 两 表 行 数 总 和 ， 如 图 3-51 所 示 。 


需要 注意 的 是 ， 运 行 此 类 追加 表 查 询 将 会 直接 履 盖 LASR 原 始 表 的 记录 ， 在 运行 之 前 请 做 好 必要 的 备份 。 


| 


oo 


Rm 


LASR 这 兰 库 : | /Orion SalesiDnon LASR DataOrnion LASR Library 








可 用 老 : 基 去 : 
园 caRgs LOCAL LASR [+ 
围 CombinedOrderInfo 


| Couniry Sales with Prompted fite 





| 图 PROFIT CO PROD MONITIH LASR 的 


围 NEWMONTHS LASR 


ORION DASHBOARD LASR 


围 pROFIT CO PROD MONTH LASR 
围 RIGELTOYS 

转 saLEs sUMMARY SHEETI1 

围 saALFEs SUMMARY SHEFT? 

转 saLES SUMMARY SHEET3 





图 3-50 ”追加 表 


LASRAppendTablesl as 


园 ww 四 | 中 a | 来 结 早 


YMM Year ”Month Produect Lin. Product_C.. Product G. Units sold Sales Product_C... Sales less_.. Labor_ Cost pre 和 
2007M05 2007 5| Sports Swim Sports Bathing Suits 1 $67 $28 $39 $24 $15 
2007M07 2007 7| Sports | Swim Sports| BathingSuits 请 $401 $166 $235 $97 $138 
2008M05 2008 5 Sports Swim Sports Bathing Suits 1 S68 $28 $40 $21 $19 
2009M11 2009 11 Sports Sim Sports Bathing Suits 2 $137 $57 $81 $70 $1l 

.2010M04 2010 4 Sports | Swim Sports| BathingSuits 2| $137 $7 sl $8 $2| 
2010M07 2010 7| Sports | Swim Sports| Bathing Suits 2 $137 $57| $81 $25 $55 
2011MO08 2011 8 Sports Swim Sports Bathing Suits 4 275 $113 $161 $55 $107 
2007M03 2007| 3| Clothes &... Shoes | Tracker Sh 1 $51 23 $28| $37 $9 

E 2007M05 2007 5 Clothes & .. Shoes Tracker Sh . 1 $51 $23 $28 $24 $3 
2007M07 2007 7| Clothes 到.| Shoes Tracker Sh . 2 $102 $46 $55 $32 $23 
2007M12 2007| 12| Clothes & | Shoes Tradker ah 1 $51 $23 区 > $37 $-10 
2008M03 2008 3| Clothes &.. Shoes | Tracker Sh 1 $51 $23 $28 $37 $9 
2008M05 2008 5 Clothes & Shoes Tracker Sh . 1 $51 $23 28| $21 $7 
2008MO08 2008 8| Clothes & | Shoes Tracker Sh..| 2 $102 $47| $56 $28 $27 
2009M01 2009 1 Clothes &... Shoes Tracker Sh 6 $307 $140 $167 S78 $89 
2009M04 2009 4| Clothes &...| Shoes Tracker Sh 3 $154 $70 $84 $112 $28| 
2009M06 2009 6| Clothes &.. Shoes | TrackerSh. 1| $51| $3 $8 su 4 
2009M0S 2009 8| Clothes & | Shoes Tracker Sh 3| $154 $70 $84 $35 $49 
2009M11 2009 11 Clothes &... Shoes Tracker Sh 1 $51 $23 $28 $35 $7 
2010M03 2010 3 Clethes & | Shoe | TrackerSh..| 二 $102 sS47 356 $64 $9 
2010M06 2010 6 Clothes &.. Shoes Trade Sh. 区 $205 $93 SI 36 $44 
2010M08 2010 8 Clothes & .. Shoes Tracker Sh.. 2 $102 $47 $56 $27 S28 
2010M11 200 lcCoths& .shoes TrakeSh. Il ss $l $l $9 45 
2011M02 2011 2 Clothes &... Shoes Tracker Sh . 2 $102 $47 $56 $53 $2 

















图 3-51 追加 表 后 的 新 表 


后 ， 可 以 点 击 LASR 荣 单 中 的 “保存 SASHDAT 表 ”， 将 追加 完成 后 的 LASR 表 存储 为 SAASHDAT 格 式 ， 作 为 元 余 备 份 ， 如 图 3-52 所 示 。 
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LASRTableSavel 


日 *» = 


楷 定 8&SHDAT 去 的 保存 设 
LASR 者 





儿科: | PROFIT CO PROD MONTH LASR 





宇 科 话 :ron SalesUnon LAsk DataOnon LASR Library 


545HDAT 老 
名 称 : PROFIT CO PROD MONTH LASR 


它 重 : Trion Sales Con HDFS Data 





"| 


末 笠 库 : | /Orion Sales/Onon HDFS DataOnon HDFS Library 





图 3-52 匈 余 备份 


点 击 保 存 并 成 功 运 行 后 ， 可 以 从 Orion HDFS 目 录 中 看 到 该 LASR 表 已 经 成 功 备份 到 HDFS 文 件 系统 中 。 


3.4.6 ”创建 LASR 星 型 表 


星 型 模型 与 雪花 模型 是 数据 仓库 设计 常用 的 两 种 模型 。 星 型 模型 由 一 张 事实 表 和 若干 张 环 绕 它 的 维度 表 组 成 。 每 一 个 维度 代表 一 张 表 ， 其 主键 关联 事实 表 中 的 外 键 ，LASR 星 型 表 
也 与 一 般 定义 的 星 型 表 类 似 。 需 要 注意 的 是 在 LASR 星 型 表 中 ， 事 实 表 和 维度 表 相 关联 的 列 的 类 型 和 长 度 需要 保持 一 致 。 另 外 ，LASR 星 型 表 不 支持 事实 表 和 维度 表 的 多 列 关 联 
(multiple key columns) 。 

为 了 创建 LASR 星 型 表 ， 我们 首先 需要 在 准备 数据 页 面 展 开 待 连接 数据 集 目录 ， 并 将 这 些 数据 集 加 载 至 LASR 服 务 器 。 加 载 并 新 命名 LASR 表 ， 包 括 
EMPLOYEE FACT _LASR，AUTO LASR，CITY_LASR 等 。 之 后 ， 直 接 在 Orion LASR Data 文 件 夹 中 检查 这 些 LASR 表 是 否 存 在 。 并 选择 LASR 菜 单 中 的 “创建 星 型 模式 ”， 如 图 3-53 所 
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图 3-53 ”创建 星 型 模式 


我 们 首先 选择 事实 表 EMPLOYEE_ FACT_ LASR 表 并 拖 搜 至 工作 台中 ， 可 以 看 到 该 表 包 含 4 个 字符 型 和 1 个 数字 型 变量 。 之 后 将 其 他 维度 表 如 AUTO_LASR，5CITY_LASR 等 拖 搜 至 工作 
台 ， 系 统 将 根据 相同 维度 属性 自动 建立 连接 ， 如 图 3-54 所 示 。 


最 后 ， 检 查 连接 、 列 属性 ， 确 认 无 误 后 选择 输出 该 全 新 的 星 型 表 至 LASR 服 务 器 。 保 存 此 查询 并 运行 ， 确 认 返 回 的 查询 结果 如 图 3-55 所 示 。 


创建 星 形 表 查询 可 以 选择 预定 方式 运行 ， 以 避免 长 时 间 的 查询 和 过 大 的 系统 负担 。 单 击 快速 编辑 栏 的 预定 按钮 ， 进 入 如 图 3-56 所 示 的 界面 。 新 建 一 个 时 间 事 件 ， 并 指定 是 否 只 运 
行 一 次 ， 或 者 多 次 〈 可 以 按 小 时 、 天 、 星 期 、 月 和 年 进行 周期 调度 ) 。 


这 样 定 期 地 将 汇总 的 事实 表 和 维度 表 进 行 连接 ， 并 加 载 到 LASR 服 务 器 中 ， 著 代 一 系列 烦琐 的 ETL 工 作 。 在 需要 进行 业务 分 析 和 报表 统计 的 时 候 ， 可 以 直接 对 新 生成 的 星 型 表 进 行 查 
询 分 析 ， 省 去 了 传输 、 计 算 等 大 量 时 间 。 


需要 注意 的 是 ，LASR 星 型 表 默 认 保存 格式 为 视图 ， 这 意味 着 在 LASR 中 星 型 表 只 保存 查询 而 不 存储 物理 数据 。 如 果 用 户 是 初次 建立 星 型 表 而 县 最近 会 反复 修改 ， 建 议 按 默认 视图 方 
式 保存 ， 如 果 修 改 已 完成 并 且 在 LASR 服 务 器 内 存 容许 的 情况 下 ， 尽 量 将 星 型 表 以 物理 方式 加 载 到 LASR 服 务 器 中 去 ， 以 提高 分 析 性 能 。 
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图 3-54 ”创建 星 形 连接 


Employeestarschema ] 


器 OE, i Explore Results 


Desigh | Code | Results 


Gotorow:|1 上 名 音 景 | 24 [2 Headings| > | 





LastName Departme... CollegelD CityiD AutolD AUTO _ LA... CITY LAS.. COLLEGE... DEPARTM... 
1 Rafferty 了 1 43 2 Chewy LOE LUNE cales 
2 oteinbery 了 40 10 Subaru Cary NCSL Engineerl... 
3 smith 3 二 49 28 | 3 Duke Clerical 
4 Lennon 36 40 2 18 Tovota LDEX NGS 
要 JONeS 了 49 了 10. Subaru Raleigh Engineerl... 
6 Robinson 了 二 了 12 Ford Raleigh wake Fort... Clerical 
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图 3-55 保存 并 检验 星 型 表 


择 一 个 或 条 个 触发 日 " 织 梅 定 预 证 可 询 运行 十 必须 请 足 的 事件 


hy 了 = a 或 千 六 村 二 EE 
a EE a 
Es 
号 户主 件 
星 任 总 计件 时 运行 
旦 两 育 车 件 时 运行 


疯 证 | 取证 | 
图 3-56 ”预定 对 话 框 
3.5 “本章 小 结 


本 章 主 要 介绍 了 SAS Visual Analytics 中 两 个 重要 的 组 成 部 分 Administrator 和 Visual Data Builder。 使 用 Administrator 可 以 配置 并 启动 LASR 服 务 器 ， 并 加 载 单一 数据 源 或 HDFS 
数据 。Visual Data Builder 不 仅 可 以 导入 单一 数据 源 和 大 数据 存储 ， 还 可 以 进行 表 查 询 、 连 接 、 过 滤 、 分 组 并 生成 全 新 的 数据 集 供 报表 使 用 .。 


第 4 草 ”标准 报表 与 定制 化 报表 分 析 


报表 的 制作 和 分 享 是 可 视 化 分 析 的 重要 组 成 部 分 。SAs 可 视 化 分 析 提 供 了 丰富 的 报表 功能 ， 用 户 无 须 通 过 代码 级 的 开发 工作 就 可 以 轻松 处 理 数 干 万 条 数据 并 且 按 照 业 务 需求 生成 种 
类 丰富 的 报表 。 同 时 报表 之 间 还 可 以 实现 过 滤 、 交 互 操作 和 报表 链接 。 报 表 的 过 滤 是 指 通过 对 报表 底层 的 数据 进行 过 滤 从 而 展现 不 同 的 报表 。 报 表 的 交互 操作 是 指 通过 过 滤 数 据 或 者 刷 
亮 数 据 使 得 多 个 报表 可 以 交互 操作 。 报 表 的 链接 支持 在 查看 当前 报表 的 同时 ， 通 过 链接 转 入 一 个 不 同 的 报表 。SAS Visual Analytics 还 允许 对 各 种 报表 在 企业 内 部 进行 分 享 。 


4.1 SAS Visual Analytics Designer 和 Visual Analytics Graph Builder 介 绍 


4.1.1 SAS Visual Analytics Designer 


SAS Visual Analytics Designer (SAS 可 视 化 设计 器 ) 是 SAS Visual Analytics 产 品 的 一 部 分 。 它 可 以 用 来 查看 、 交 互 及 创建 报表 和 仪表 盘 。 报 表 的 设计 者 可 以 通过 Web 浏 览 器 中 
运行 的 SAS 可 视 化 设计 器 查询 和 了 解数 据 源 ， 进 而 可 以 通过 拖 放 表 、 图 形 等 方法 来 创建 设计 精良 的 报表 ， 当 然 还 可 以 向 报表 添加 文本 、 图 像 和 和 SAS 程序 使 得 报表 更 加 丰富 多 彩 和 灵活 强 


4.1 SAS Visual Analytics Designer 和 Visual Analytics Graph Builder 介绍 


4.1.1 SAS Visual Analytics Designer 
SAS Visual Analytics Designer (SAS 可 视 化 设计 器 ) 是 SAS Visual Analytics 产 品 的 一 部 分 。 它 可 以 用 来 查看 、 交 互 及 创建 报表 和 仪表 盘 。 报 表 的 设计 者 可 以 通过 Web 浏 览 器 中 


运行 的 SAs 可 视 化 设计 器 查询 和 了 解数 据 源 ， 进 而 可 以 通过 拖 放 表 、 图 形 等 方法 来 创建 设计 精 恨 的 报表 ， 当 然 还 可 以 向 报表 添加 文本 、 图 像 和 SAs 程 序 使 得 报表 更 加 丰富 多 彩 和 灵活 强 
大 


oo 


4.1.2 SAS Visual Analytics Graph Builder 


SAS Visual Analytics Graph Builder (SAS 可 视 化 图 形 生 成 器 ) 可 以 生成 自 定义 的 图 形 对 象 ， 这 些 对 象 随后 在 SAS 可 视 化 设计 器 中 提供 以 在 报表 中 使 用 。 可 以 为 所 有 SAS 可 视 化 设 
计 器 中 的 图 形 对 象 创建 自 定义 图 形 对 象 。 在 自 定义 图 形 对 象 中 ， 可 以 改变 布局 、 添 加 新 的 图 形 元 素 、 修 改 角色 及 改变 可 视 化 属性 等 等 。 


4.2 ”创建 标准 报表 


4.2.1 使 用 各 类 报表 对 象 


使 用 各 类 报表 对 象 制作 报表 首先 要 决定 采用 什么 报表 对 象 。 报 表 对 象 是 生成 报表 的 基本 单元 。 举 例 : 希望 基于 数据 生成 饼 图 ， 那 么 需要 选择 “ 饼 图 ”报表 对 象 。SAS 可 视 化 设计 器 
提供 了 多 样 的 报表 对 象 创建 各 类 标准 报表 。 报 表 对 象 可 以 分 为 不 同 的 种 类 : 表格 、 图 形 、 控 件 和 容器 等 。 每 种 报表 对 象 所 对 应 的 图 标 见 表 4-1。 


表 4-1 报表 对 象 


报表 对 象 图 标 报表 对 象 名 称 报表 对 象 类 型 三 报表 对 象 名 称 报表 对 象 类 型 
表格 对 象 
下 


下 
四 容 估 对象 


气泡 图 


定形 树 图 


汪 必 
虽 下 
dl! 用 其 他 对 象 
和 一 | 


国 图 上 3. 


4.2 创建 标准 报表 





4.2.1 使 用 各 类 报表 对 象 


使 用 各 类 报表 对 象 制作 报表 首先 要 决定 采用 什么 报表 对 象 。 报 表 对 象 是 生成 报表 的 基本 单元 。 举 例 : 希望 基于 数据 生成 饼 图 ， 那 么 需要 选择 “ 饼 图 ”报表 对 象 。SAs 可 视 化 设计 器 
提供 了 多 样 的 报表 对 象 创建 各 类 标准 报表 。 报 表 对 象 可 以 分 为 不 同 的 种 类 : 表格 、 图 形 、 控 件 和 容器 等 。 每 种 报表 对 象 所 对 应 的 图 标 见 表 4-1。 


表 4-1 报表 对 象 


报表 对 象 图 标 报表 对 象 名 称 | 报表 对 象 类 型 报表 对 象 名 称 报表 对 象 类 型 


表格 对 象 
一 是 
ET 
一 容器 对 象 
2 
二 四 
其 他 对 象 


| | 
时 计量 


4.2.2 在 SAs Visual Analytics Designer 中 处 理 和 分 析 数 据 


如 图 4-2 所 示 ， 进 入 SAs Visual Analytics， 选 择 “报表 设计 器 ”就 可 以 进入 SAs 报 表 设 计 器 。 


在 设计 器 中 可 以 看 到 “对 象 ”“ 数 据 ” 和 “导入 ”选项 。 选 择 “数据 ”选项 可 以 选择 想 要 创建 报表 的 数据 源 : 当选 择 数 据 源 时 ， 所 有 有 权限 的 表 都 会 展现 在 “添加 数据 源 ” 中 ， 然 
后 在 搜索 框 中 搜索 想 要 建立 报表 的 数据 源 ， 如 图 4-2 所 示 。 


数据 探索 器 报表 设计 器 





图 4-1 SAS Visual Analytics 界 面 


在 图 4-3 中 ， 选 择 “donation_data” ， 在 选项 中 选择 “测度 详细 信息 ”。 通 过 “测度 详细 信息 ”可 以 获得 所 选择 数据 源 中 所 有 数值 型 变量 的 统计 量 。 对 于 每 一 个 数值 型 的 变量 ， 
最 小 值 、 最 大 值 、 平 均值 、 总 和 等 统计 量 被 计算 ， 在 详细 信息 中 还 可 以 进一步 获得 标准 差 、 标 准 误差 、 偏 度 、 峰 度 等 统计 量 。 











而 crosoft Excel (#. Kls, 
| Inported on Fri...| Shared Data/LASR | 之 本 ， 《和 csw， 加 txt， 站 








加 (局 孝 宾 灼 砍 RE 

Ke J PVN Pd A | Imported on Th ..| Shared Data/LASR 

Loaded on Thurs... | Shared Data/LASR 

| .| Shared Dat a/LASR 

CLASS_SCNYUD2 Imported on Tue. .. | Shared Data/LASR 
DIGITAL ACTINIT... | Loaded on Tussd .. | Projects/Digital Ixrt... 
DIGITAL CLICKST... | Loaded on Tuesd... | Projects/Digital Irt... 
DIGITAL_PROD_IN... | Loaded on Tussd,.. | Projects/Digital Irt... 

DONATION DATA Imported on Tue. .. | Shared Data/LASR 

ENGSTOPL ] SASHelp. engstopl | Shared Data/LiSR 








找到 48 个 数据 源 








图 4-2 ”添加 数据 源 





| 吉 称 


card_prom_12 19. 00 .5 | 5.541, 595.00 


表 段 ] 引 中 \ | donat ion_amount 200. 00 3,899, 734.30 


| file_avg_gift 450. 00 6 12, 857, 206. 57 
重 改 数据 源 file_ card gift 41.00 5,276, 562.00 
ms eet 于 hons_value 色 012.28| 1, 080.56 1, 080, 559, 412. 26 
ps EE "is house_income 1, 515. 34 A 342, 146, 825. 04 
新 建 层 次 .. . | | 


v 全 天 度 新 建 自 定义 类 别 . : last_gift_ant 450. 92 16， Et S20. 
Dare 新 建 计算 项 . .. 












































分 card pron 12 新 建 聚 侣 测 度 .. . 
傅 dmmation_anourt 新 建 参 数 . . . ms 


$ tile_ave_sift 新 建 数据 源 过 源 器 ..， 
file card gift 总 行 数 : 1, 000, 000 
人 file_card.e 列 度 详细 信息 . \ mm 
SS home value ee : -0.4769 
网 显示 或 隐藏 项 . .. 28. 2686 
nouse_Imncome Me 平方 和 : 2, 823, 030, 780.00 
FF last gift amt 避 显 示 使 用 的 项 校正 平方 和 : 208, 897, 501. 12 
2 = 而 T 统计 量 (用 于 平均 数 = 0) : 3, 068. 8964 
S 11fet ime _ ave_gift amt 排序 项 ! P 值 (用 于 了 统计 量 ) : :| 0.0000 


估 lifetime_gift_anourt 分 组 项 

















图 4-3 测度 详细 信息 


在 图 4-4 所 示 的 界面 ， 可 以 添加 新 的 数据 源 、 刷 新 数据 源 或 者 删除 数据 源 。 针 对 每 个 数据 源 中 的 数据 项 ， 可 以 有 各 种 不 同类 型 的 操作 ， 比 如 : 


更 R*|SX| 
[* 全 面 
回 (局 总 光 闸 上 J] 更 改 数据 源 . 
. 品 新 建 层 灾 . 
和 新 建 自 定义 类 别 


新 建 计 算 项 . 
card prom le 十 本 会 测度 






可 || 











学 由 DISat+t1oI amount 部 建生 类 


tile ave z1tt+ 半 建 数据 交工 姨 ， i 


+t11 d elit : - 
二 出 度 详细 信息 
ome walue 


获 显示 或 隐藏 项 
地 house 1ncome 1 - 
BD 1ast_ gift ant ”可 显 示 使 用 的 项 


litetime ave eltt amt 排 友 黄 
J]itetime elitt amount 卸 组 萝 


图 4-4 各 类 数据 操作 








` 新 建 层 次 


.新建 自 定义 类 别 


. 新建 计算 项 


“新建 聚合 测度 


-新建 参数 


-新建 数 据 源 过 滤器 


: 显示 或 者 隐藏 项 


在 一 个 数据 源 中 经 常会 有 很 多 数据 项 ， 可 以 指定 在 数据 源 当 中 显示 或 者 隐藏 数据 项 。 比 如 : 可 以 在 “donation_data” 中 只 显示 donation、gender、home_owner 等 数据 项 ， 如 


图 4-5 所 示 。 





_ 亚 未 歌 隐藏 数据 项 = 
选择 要 在 “对 象 ” 选 项 卡 上 显示 的 项 。 
器 全 选 DONAT ION DATA 
局 卫 donation 
Dfrequency status_9Tnk [ 埋 4 四 
可 PM gender > ER 
要 二 hone_owmer EE OO je Bi 
Iv| in house set 


Vv 二 income_group 
-+ 
[二 ovwerlay7_source 村 名 着 


[二 published_phone 二 Pp 
be recency status 96nk 


口交 SECluster ee zender 
中 交 SECluster_code 
器 urbanicity 

vealth rating 一 











疙 home cwner 





MM incone_group 
图 4.5 ”显示 数据 项 


对 于 单个 数据 项 ， 可 以 选择 进行 额外 的 操作 ， 如 图 4-6 所 示 ， 选 择 “donation_amount” 这 个 数据 项 ， 右 键 可 以 进行 各 类 操作 : 复制 数据 项 、 重 命名 数据 项 、 新 建 自 定义 类 别 、 从 
数据 项 新 建 参 数 。 





donatlon amo 


小 file ave_eif 
> file card El 单 前 冶 数 据 黄 .. 


home walue 隐 肪 数据 项 


学 house 1ncome 创建 
last zift am 新 建 目 定 党 荣 列 ... 


从 数据 项 新 建 参 数 .…， 





县 制 沼 据 项 








litetime ave| 
1ifetime zifl 准 刑 
1ifetime zifl ww 测 阳 
六 lifetime_zif1 节理 垃 站 


图 4-6 ”单个 数据 项 操作 





针对 数值 型 的 测度 ， 可 以 创建 一 系列 额外 的 指标 ， 如 “ 占 合计 的 百分比 ”。 而 对 于 类 别 变量 ,可 以 “创建 非 重复 值 计数 ”， 如 图 4-7 所 示 。 


还 可 以 根据 数据 项 的 不 同类 型 ， 改 变数 据 项 的 属性 得 到 感 兴趣 的 结果 。 对 于 “donation_data” 这 个 数据 集 ， 有 数据 项 home_owner 和 house_income。home_owner 为 分 类 型 变 
量 ， 含 义 为 房屋 所 有 人 标签 ， 值 “H” 是 房屋 所 有 人 ， 值 “U” 不 是 房屋 所 有 人 。house_income 为 数值 型 变量 ， 含 义 为 家 庭 收 入 。“donation_data” 数 据 集 所 有 数据 项 的 解释 可 以 
参考 6.3 节 。 
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$$ age 
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复制 数据 项 
重 命名 数据 项 ... 
隐藏 数 据 项 
创建 非 重复 值 计数 


与 上 一 期 间 的 差 值 
与 上 一 并 行 期 间 的 差 值 

与 上 一 期 间 的 百分比 差 值 

与 上 一 并 行 期 间 的 百分比 差 什 


复制 数据 项 
重 命名 数据 项 .. . 
隐藏 数据 项 
创建 
































新 建 自 定义 类 别 . .. 占 合 计 的 百分比 新 建 自 定义 类 别 .…， 
从 数据 项 新 建 参数 . .. 期 初 至 今 新 建 自 定义 排序 … 
a 年 初 至 今 从 数据 项 新 建 欧 数 ,.， 
类 别 ! 王 六 
v 测度 年 初 至 今 增长 
地 理 位 置 b| 年 度 增长 


图 4-7 创建 的 额外 指标 


如 图 4-8 所 示 ， 想 了 解 是 否 自 有 住房 (home_owner) 和 家 庭 收 入 (house_income) 之 间 的 关系 ， 可 以 改变 house_income 的 聚合 属性 ， 从 而 得 到 有 自 有 住房 和 无 自 有 住房 家 庭 
的 总 收入 和 平均 收入 。 
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图 4-8 改变 聚合 属性 
事实 上 ， 可 以 改变 一 个 数据 项 的 多 个 属性 ， 包 括 : 
` 数据 项 的 名 称 
` 数据 项 的 格式 
" 数据 项 的 聚合 方式 。 对 于 数值 型 测度 的 聚合 方式 有 很 多 种 ， 包 括 总 和 、 平 均值 、 标 准 差 ， 标 准 误差、 方差、 最 小 值 、 最 大 值 、 分 位 数 、 峰 度 、 偏 度 等 。 
* 排序 选项 。 默 认 是 按照 格式 化 之 后 的 值 进行 排序 ， 也 可 以 选择 按照 未 格式 化 的 值 进行 排序 。 


也 可 以 将 一 个 数据 项 的 类 别 改 为 地 理 数 据 项 ， 这 样 可 以 创建 地 理气 泡 图 ， 地 理 坐 标 图 或 者 地 理 区 域 图 ， 如 图 4-9 所 示 。 


国家 /地 区 名 称 
天 Facility Com| 于 制 数 据 硕 国家 /地 区 I50 2 字母 代码 
了 freqmency_stal| 。 重 命名 数据 项， 国家 /地 区 I90 数值 代码 
于 gender 隐藏 数据 硕 国家 /地 区 Sa 地 图 TD 值 ead | Facility Court ry 
和 one_omer | 。 创建 非 重复 估计 地 域 { 州 、 省 》 名称 





一 1r. house 


陪 1rcome group 


新 建 自 定义 类 别 . , 地 域 《 州 、 省 ) Sus 地 图 ID 值 
新 建 自 定义 排序 . . 

从 数据 项 新 建 参 数 ,.， 美国 州 儿 

类 别 美国 州 编 与 

测 原 美国 邮政 区 码 











图 4-9 ”地 理 数 据 项 的 类 别 


4.2.3 ”报表 过 滤 ， 报 表 交 互 ， 报 表 链 接 


1. 报 表 过 滤 
在 SASs 可 视 化 设计 器 中 ， 我 们 可 以 通过 创建 过 滤器 获取 所 需要 的 数据 子 集 。 可 以 提供 的 过 滤器 有 下 面 几 种 : 
` 详细 信息 报表 过 滤器 
后 聚合 报表 过 滤器 
其 中 详细 信息 报表 过 滤器 ， 又 可 以 分 为 : 
(1) 基本 过 滤器 


使 用 单个 数据 项 对 报表 中 各 个 报表 对 象 的 数据 取 子 集 。 基 本 过 滤器 只 能 使 用 在 创建 基本 过 滤器 时 选 定 的 数据 项 。 可 使 用 报表 对 象 的 弹出 菜单 或 使 用 编辑 过 滤器 窗口 创建 和 修改 基本 


(2) 高 级 过 滤器 

使 用 同一 表达 式 中 任意 数目 的 数据 项 和 运算 符 (例如 ，OR 和 AND) 对 报表 中 各 个 报表 对 象 的 数据 取 子 集 。 可 使 用 高 级 过 滤器 窗口 创建 和 修改 高 级 过 滤器 。 
(3) 数据 源 过 滤器 

获取 整个 报表 的 数据 子 集 ， 创 建 的 数据 源 过 滤器 应 用 于 使 用 该 数据 源 的 报表 中 的 所 有 报表 对 象 。 


在 下 面 的 例子 中 ， 会 使 用 一 个 叫 作 “TOYS” 的 数据 集 ， 该 数据 集 有 400 万 个 观测 值 和 10 个 变量 ， 每 一 个 观测 都 代表 了 一 个 玩具 公司 所 拥有 的 工厂 信息 、 产 品 信息 和 收益 信息 。 其 
中 包括 8 个 字符 型 变量 和 2 个 数值 型 变量 。 表 4-2 描 述 了 每 个 变量 的 含义 。 


表 4-2 “TOYS 数据 集中 变量 的 含义 


0 
eByver | 定价 ”| | 6 | Rachiyciy | 六 所 在 大 而 | 宁 从 
字符 | 7 | UnivielaAcmar | 实际 收 共 | 天 人 
字符 | 8 | ProaverBrand “| 蝇 光 
iyRegion | T 广 所 在 斋 | 字符 上 9 | Pootine | 产品 ”| 字 从 
aiiysate | TEN 从 | 10 | Poa | 产品 | 


以 下 是 一 个 高 级 过 滤器 的 例子 。 


( 几 | 上 | PPD | 一 


首先 选 定 要 过 滤 的 报表 对 象 ， 该 报表 对 象 必须 至 少 分 配 有 一 个 数据 项 。 如 图 4-10 所 示 是 一 个 交叉 表 ， 该 交叉 表 展 现 了 不 同 区 域 在 不 同年 份 的 产品 收益 。 


工厂 所 在 城市 a。 


Brmmeham 
Chicage 
Cmcmrmatl 
Cleveland 
Cormpus Christ1 
Dallas 
Elgmn 
Houston 
Jobet 

Little Rock 
Los Anpeles 
anchester 
Moble 


点 击 右 侧 的 过 滤器 选项 






















































































































































































实际 收 盖 。。 。 实 阿 下 盖 。 实际 收益 

135838 53232499 420709 
14862 9336 41441 
12936 7676 19406 
89729 113185 478 
649272 861407 1193 
330734 412583 216638 
0 0 0 
59909 67064 23170 
16068 9560 41053 
187020 196862 68342 
0 0 0 
259121 380517 197620 
960467 334799 468473 


图 4-10 “不同 区 域 不 同年 份 收益 交叉 表 


卡 ， 选 择 高 级 ， 然 后 添加 过 滤器 。 编 辑 高 级 过 滤器 的 窗口 随即 出 现 ， 如 图 4-11 所 示 。 
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图 4-11 高 级 过 滤器 编辑 


在 这 里 可 以 指定 过 滤器 名 称 ， 同 时 创建 过 滤 条 件 。 在 创建 过 滤 条 件 的 时 候 ， 可 以 使 用 可 视 选 项 卡 或 者 文本 选项 卡 或 者 结合 这 两 个 选项 卡 使 用 。 比 如 如 果 想 查看 产地 
为 “Chicago” 的， 并 且 2008 年 之 后 的 产品 收益 情况 ， 那 么 可 以 在 可 视 化 选项 卡 当中 创建 如 图 4-12 所 示 的 过 滤 条 件 : 


点 击 确定 应 用 过 滤器 ， 过 滤器 生效 后 的 报表 如 图 4-13 所 示 。 
2. 报 表 交 互 


交互 操作 用 于 将 报表 查看 者 的 关注 点 转移 到 报表 中 的 特定 结果 。 通 过 交互 操作 可 获取 数据 子 集 以 减少 数据 量 ， 可 以 在 特定 上 下 文中 理解 数据 。 
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Chicago 41441 4187 ， 62441 
































图 4-13 应 用 过 滤器 后 生成 的 报表 
使 用 SAS 可 视 化 设计 器 中 的 交互 操作 视图 ， 报 表 设 计 者 可 以 指定 要 向 报表 中 的 表 、 图 形 、 量 具 和 控件 添加 哪些 交互 操作 。 
有 以 下 几 类 报表 交互 操作 : 
(1) 过 滤器 
过 滤器 用 于 限制 从 数据 源 的 查询 中 返回 的 数据 。 过 滤器 只 是 一 组 规则 或 条 件 ， 通 过 指定 它们 可 对 表 或 图 形 中 显示 的 数据 取 子 集 。 过 滤 目 的 是 只 显示 想 要 查看 的 数据 以 便 执 行 分 析 。 
(2) 刷 亮 


刷 亮 是 数据 刷 亮 的 简称 ， 它 允许 在 两 个 或 更 多 的 表 、 图 形 或 控件 中 同时 显示 选 定 的 相同 数据 。 刷 亮 突 出 显示 反映 数据 集中 共享 观测 值 数 的 百分比 ， 不 突出 显示 对 应 于 聚合 值 的 百 分 
比 。 刷 亮 的 数据 在 每 个 对 象 中 具有 相同 的 外 观 ， 这 使 数据 易于 在 报表 查看 器 中 查看 。 


表 、 图 形 和 量具 可 以 是 交互 操作 的 源 ， 但 是 时 间 序 列 图 除外 。 使 用 详细 数据 的 报表 对 象 不 能 是 交互 操作 的 源 。 在 绘制 区 中 使 用 的 控件 也 可 以 是 交互 操作 的 源 。 将 用 作 表 上段 提示 的 控 
件 视 为 自动 过 滤器 ， 它 们 不 显示 在 交互 操作 视图 中 。 


以 下 是 通过 数据 刷 亮 进行 报表 交互 的 例子 : 


进入 希望 进行 报表 交互 的 报表 对 象 ， 在 本 例 中 ， 报 表 中 含有 一 个 图 形 ， 一 个 表 。 图 形 反映 的 是 不 同 区 域 在 所 有 年 份 的 产品 收益 总 和 ， 表 反映 的 是 不 同 区 域 在 不 同年 份 的 产品 收益 ， 
如 图 4-14 所 示 。 
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选择 交互 操作 选项 卡 
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选择 新 建 “交互 操作 ”， 









































然后 选择 交互 操作 类 型 为 刷 亮 ， 条 形 图 刷 亮 交 义 表 ,， 




















图 4-14 报表 交互 现象 


































由 将 显示 在 报表 对 象 之 间 ， 箭 头 从 条 形 图 指向 交叉 表 ， 如 图 4-15 所 示 。 
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图 4-15 报表 交互 操作 


选择 图 对 象 中 的 任意 一 个 城市 就 可 以 刷 亮 表 对 象 中 所 对 应 的 数据 。 比 如 看 到 “Mobile” 这 个 区 域 的 收益 最 高 ， 点 击 “Mobile” 的 柱子 可 以 同步 刷 亮 对 应 的 表 对 象 当 中 的 数据 从 而 
可 以 清楚 地 看 到 “Mobile” 在 具体 的 每 个 年 份 的 不 同 收益 ， 如 图 4-16 所 示 。 


如 果 选 择 的 交互 操作 类 型 为 过 滤器 ， 那 么 当 点 击 “Mobile” 柱 子 的 同时 ， 在 表 对 象 中 能 看 到 过 滤 后 的 只 包含 “Mobile” 数 据 的 表 对 象 ， 如 图 4-17 所 示 。 


3. 报 表 链 接 


报表 链接 支持 对 与 当前 查看 的 报表 相关 的 报表 或 网 页 进行 单 步 访 问 。 例 如 ， 正 在 查看 一 个 显示 公司 各 地 区 销售 信息 的 条 形 图 。 若 点 击 “ 东 北 ”区 域 对 应 的 直 条 ， 则 与 该 图 形 关联 的 
报表 链接 会 引 至 一 个 不 同 的 报表 ， 其 中 提供 各 地 区 员工 的 信息 。 也 可 以 点 击 目标 报表 左上 角 的 匀 以 返回 之 前 的 报表 。 


实际 F 联 蔓 ( 百 万 ) 
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图 4-16 ”图 对 象 刷 沈 表 对 象 


实际 收 蕊 ( 百 万 ) 
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图 4-17 ”图 对 象 过滤 表 对 象 


使 用 SAS 可 视 化 设计 器 ， 可 以 添加 某 个 报表 对 象 到 另 一 个 报表 ， 到 当前 报表 的 特定 表 段 或 者 信息 窗口 或 是 到 外 部 URL 的 链接 。 若 目标 报表 包含 多 个 表 段 ， 则 能 够 在 定义 链接 时 选择 
想 要 首先 打开 的 目标 报表 中 的 最 初 表 段 。 


目前 支持 下 面 4 种 类 型 的 报表 链接 : 


` 报表 链接 : 可 以 指向 另 一 个 目标 报表 
" 表 段 链接 : 可 以 指向 相同 报表 的 多 个 表 段 
信息 窗口 链接 : 可 以 指向 报表 中 的 一 个 或 者 多 个 信息 窗口 的 链接 
外 部 URL 的 链接 : 可 以 指向 外 部 URL 的 链接 
下 面 是 一 个 报表 链接 的 例子 : 如 图 4-18 所 示 ， 首 先进 入 希望 建立 报表 链接 的 报表 ， 可 以 看 到 每 个 城市 历年 以 来 的 收益 汇总 情况 。 


进入 交互 操作 选项 卡 ， 点 击 新 建 ， 选 择 报表 链接 。 选 择 项 窗口 随即 出 现 ， 选 择 报表 链接 ， 选 择 想 要 链接 的 报表 以 及 报表 表 段 。 点 击 确定 后 ， 新 的 报表 链接 显示 在 交互 操作 选项 卡 当 
中 ， 如 图 4-19 所 示 。 
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图 4-19 ”创建 报表 链接 
想 要 链接 的 报表 如 图 4-20 所 示 ， 反 映 了 从 1980 年 到 2011 年 以 来 每 年 所 有 城市 的 收益 汇总 ， 并 且 按 照 降序 排列 。 


实 奈 收 蔓 ( 百 万 ) 
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2001 年 200? 年 1997 年 3008 年 1994 年 3006 年 1993 年 2004 年 199] 年 。 1989 年 。 2011 年 1988 年 1986 年 。 1984 年 ”1981 年 


年 从 
图 4-20 ”报表 链接 对 象 


在 查看 原始 报表 的 时 候 ， 如 果 对 于 某 个 城市 的 收益 感 兴趣 。 比 如 ， 双 击 “Birmingham” 地 区 的 收益 ， 目 标 报表 将 显示 出 来 ， 目 标 报表 所 显示 的 正 是 “Birmingham” 地 区 从 1980 


年 到 2011 年 的 城市 收益 分 布 情况 ， 如 图 4-21 所 示 。 
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图 4-21 报表 链接 操作 


4.2.4 使 用 报表 中 的 参数 

参数 是 可 以 被 其 他 报表 对 象 引用 的 ， 值 可 以 改变 的 变量 。SAS 可 视 化 设计 器 支持 报表 中 控件 的 参数 。 当 一 个 控件 有 关联 参数 ， 则 当 控件 的 值 改变 时 ， 会 将 改变 后 的 值 赋予 参数 。 当 
参数 的 值 改变 ， 所 有 使 用 该 参数 的 显示 规则 、 排 名 、 计 算 和 过 滤器 也 会 一 同 更 新 。 报 表 当 中 使 用 该 显示 规则 、 排 名 、 计 算 和 过 滤器 的 所 有 报表 对 象 也 会 相应 更 新 。 

参数 可 以 通过 如 图 4-22 所 示 三 种 途径 创建 : 

" 数据 菜单 栏 

. 右键 一 个 数据 项 


* 新 建 一 个 聚合 测度 或 者 新 建 一 个 计算 项 
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图 4-22 ”参数 的 创建 途径 
参数 可 以 应 用 在 SAS 可 视 化 设计 器 的 下 列 功能 
. 计算 : 计算 项 和 聚合 测度 允许 使 用 参数 。 凡 是 数值 或 字符 值 有 意义 的 情况 均 支持 使 用 参数 。 
` 显示 规则 : 数值 参数 可 指定 为 一 个 表达 式 规则 的 值 。 


. 过 滤器 (细节 过 滤器 ， 聚 合 过 滤器 与 数据 源 过 滤器 ) : 在 数值 与 字符 值 有 意义 的 情况 下 均 支 持 字符 参数 或 数值 参数 。 数 据 源 过 滤器 是 一 种 特殊 的 情形 。 通 常情 况 下 ， 数 据 源 过滤 
器 应 用 于 绘制 区 内 所 有 的 报表 对 象 。 然 而 ， 若 数据 源 过 滤器 包含 一 个 参数 ， 则 过 滤器 就 不 应 用 于 已 指定 参数 的 控件 。 


` 排名 : 对 于 排名 而 言 ， 参 数 n 可 以 表示 前 n 个 ， 后 n 个 或 者 前 n 百 分 比 或 者 后 n 百 分 比 。 


. URL: 报表 中 的 URL 参 数 可 以 修改 。 例 如 ， 假 如 报表 具有 以 下 URL: http://host/SASVisualAnalyticsDesigner/? 
reportPath=%2FUserY%20Folders%2Fsasdemo%2FMy%Yo20Folder&reportName=ParametetizedYo20Calculations%20DR&type=Report.BI&Origin%20Parametet=Europe&CostYo20o0f%Yo20gas 二 3.35。 那 
么 ， 第 一 个 参数 名 为 Origin Parametetr， 在 此 处 可 以 指定 不 同 的 国家 /地 区 名 称 。 第 二 个 参数 名 为 Cost of gas， 在 此 处 可 以 指定 不 同 的 成 本 以 了 解 不 同 的 汽油 价格 对 报表 的 影响 。 


下 面 是 一 个 参数 应 用 在 聚合 测度 的 例子 : 首先 新 建 一 个 参数 ， 名 称 为 waste ratio， 默 认 值 为 0.2， 因 为 其 具体 含义 为 百分比 ， 因 此 选择 格式 为 “百分比 ”， 如 图 4-23 所 示 。 
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图 4-23 ”新 建 一 个 参数 


然后 ， 加 入 一 个 滑 块 图 到 报表 上 方 ， 并 且 赋 予 角色 ， 如 图 4-24 所 示 。 


wn |” 


图 4-24 ”报表 添加 滑 块 图 





然后 再 创建 一 个 新 的 聚合 测度 : 实际 损失 。 实 际 损失 定义 为 实际 收益 和 “waste ratio” 的 乘积 ， 如 图 4-25 所 示 。 


最 后 在 生成 的 报表 当中 使 用 创建 的 聚合 测度 “实际 损失 ”。 如 图 4-26 所 示 ， 我 们 可 以 看 到 每 个 城市 在 每 个 年 份 当 中 的 实际 收益 以 及 实际 损失 。 同 时 也 可 以 看 到 每 个 城市 在 所 有 年 
份 中 实际 收益 以 及 实际 损失 的 汇总 。 当 前 的 默认 参数 值 为 20%。 


当 我 们 滑动 滑 块 增加 参数 值 为 0.8 的 时 候 ， 报 表 数 据 会 进行 实时 更 新 如 图 4-27 所 示 。 
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图 4-25 创建 一 个 新 的 聚合 测度 
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图 次 向 收 苦 图 交际 本 和 


图 4-26 ”包含 参数 的 报表 展示 
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4.3 ”创建 定制 化 报表 


SAS Visual Analytics Graph Builder 支 持 创建 自 定义 图 形 对 象 ， 
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图 4-27 调整 参数 演示 
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这 些 对 象 随后 将 出 现在 SAS 可 视 化 设计 器 中 ， 在 以 后 的 报表 制作 中 使 用 。 
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可 以 为 所 有 用 于 SAS 可 视 化 设计 器 中 的 图 形 对 象 创建 自 定义 图 形 对 象 。 在 自 定 义 图 形 对 象 中 ， 可 以 改变 布局 、 添 加 新 的 图 形 元 素 、 修 改 角 色 、 改 变 可 视 化 属性 等 。 
无 须 在 实际 数据 与 图 形 生 成 器 中 的 图 形 对 象 之 间 建 立 天 联 。 相 反 ， 应 使 用 图 形 生 成 器 附带 的 样本 数据 生成 图 形 对 象 或 模板 。 报 表 设 计 者 可 以 在 将 图 形 对 象 纳 入 其 报表 时 分 配 数 据 。 


生成 的 图 形 对 象 具有 与 设计 器 的 图 形 对 象 兼 容 的 一 致 外 观 。 图 形 生成 器 支持 使 用 更 多 布局 和 可 视 属性 选项 生成 众多 图 形 对 象 。 使 用 生成 的 图 形 对 象 ， 报 表 设 计 者 可 为 其 数据 创建 简 


单 或 复杂 的 图 形 化 视图 。 
下 面 是 一 个 生成 定制 化 图 形 对 象 的 例子 : 首先 进入 自 定义 图 形 生成 器 的 界面 ， 选 择 一 个 空白 的 模板 ， 如 图 4-28 所 示 。 


新 建 目 正六 图 形 
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条 形 图 
比较 某 个 类 别 的 值 聚 合 的 数据 。 


目标 条 形 图 
比较 有 其 齐 的 值 拒 总 的 数据 与 作为 葡 考 的 目标 


值 。 


溃 布 图 
显示 测度 的 初 蝗 值 福 某 个 娄 潭 的 值 或 时 间 中 画 何 


王八 。 








| 在 居 动 时 不 显示 食 窗 口 
图 4-28 新建 自 定义 图 形 


然后 可 以 选择 将 线 图 和 条 形 图 一 起 拖 入 工作 区 ， 条 形 图 在 线 图 的 下 方 ， 如 图 4-29 所 示 。 
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图 4-29 自 定 义 图 形 


在 角色 定义 中 ， 可 以 添加 共享 角色 。 分 别 添加 类 别 类 型 的 “共享 类 别 ” 和 测度 类 型 的 “共享 测度 ” ， 如 图 4-30 所 示 。 

















克 许 多 个 教 据 分 配 





图 4-30 添加 共享 角色 


同时 在 线 图 和 条 形 图 中 使 用 “共享 类 别 ” 和 “共享 测度 ”， 如 图 4-31 所 示 。 





由 条 形 图 1 
类 别 :* | 共享 类 别 # 下 类 别 :*# | 共享 类 别 # 一 


测度 :* 测度 :* 本 








图 4-31 使 用 设 定 的 共享 角色 


将 自 定义 图 形 保存 在 “My Folder” 元 数据 文件 夹 中 ， 并 且 命 名 为 “ 自 定义 线 图 条 形 图 ”， 而 后 在 SAS 可 视 化 设计 器 “ 自 定义 ”中 能 够 看 到 该 “ 自 定义 线 图 条 形 图 ”。 可 以 将 
该 “ 自 定 义 线 图 条 形 图 ” 拖 入 工作 区 ， 定 义 共享 类 别 和 共享 测度 之 后 ， 即 可 以 得 到 自 定义 的 报表 ， 如 图 4-32 所 示 。 
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图 4-32 使 用 自 定义 图 形 


4.4 共享 报表 


根据 角色 和 权限 ，SAS 可 视 化 设计 器 可 支持 完成 与 共享 报表 相关 的 许多 任务 。 可 以 进行 如 下 操作 : 
` 通过 电子 邮件 发 送 报表 

打印 报表 

` 从 报表 对 象 中 导出 图 像 或 数据 

分 发 报表 

(1) 通过 电子 邮件 发 送 报表 


此 操作 通过 电子 邮件 将 报表 链接 发 送 给 使 用 设计 器 的 其 他 人 。 选 择 “文件 一 电子 邮件 ”， 电 子 邮件 窗口 随即 出 现 。 可 以 选择 输入 最 多 100 个 电子 邮件 地 址 ， 也 可 以 选择 附加 报表 
PDF， 同 时 可 以 针对 报表 进行 必要 的 评论 ， 如 图 4-33 所 示 。 


电子 邮件 x 


在 件 人 :replies- 山 s 宙 led@sas, com 


一 Le a 四 有 攻 a 有 me » 1 
El i 训 = 二 P| Te pe 由 Ti 人 | 让 了 局 I | Pry .1 
= i dd | Fe = i i ph | 
四 ~ A, 
四 
世 申 : share report 
“FH 旦 ， Pp 


| 附加 报表 PDF 

















下 列 报表 可 世 审 模 : share repolt 


起 件 太 : sasdemo 
修改 者 : ”sasdemo 
修改 日 期 : 2017 年 3 目 旨 宇 期 二 上 和 干 轨 :11:18 


藻 想 无法 退 过 拒 击 图 像 态 问 僚 报表， 倩 将 下 天 网 址 县 制 开 硝 贴 到 Web 浏览 妖 中 。 
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图 4-33 ”通过 邮件 分 发 报表 
(2) 从 报表 对 象 中 导出 图 像 或 数据 
用 户 具 有 “导出 数据 ”权限 时 ， 可 以 使 用 设计 器 将 数据 从 报表 对 象 导出 为 Microsoft Excel 格 式 以 供 打印 或 将 来 查看 。 可 以 在 本 地 磁盘 上 保存 此 导出 的 输出 ， 然 后 在 Microsoft 


Excel 中 打开 。 也 可 以 选择 创建 制 表 符 分 隔 值 (*.tsv) 或 逗 点 分 隔 值 (*.csv) 数据 文件 之 类 的 带 分 隔 符 的 文本 文件 。 


此 外 还 可 以 为 报表 中 的 任何 简单 表 、 交 叉 表 、 图 形 或 量具 导出 图 像 。 若 要 在 演示 中 (例如 在 Microsoft PowerPoint 中 ) 包含 报表 对 象 的 图 像 ， 则 该 选项 非常 有 用 。 导 出 图 像 将 另 
存 为 PNG 文 件 ， 如 图 4-34 所 示 。 


件 存 图 像 * 
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工厂 所 在 城市 
图 4-34 导出 报表 图 像 
(3) 分 发 报表 


用 户 若 具 有 分 发 报表 权限 ， 则 可 以 使 用 设计 器 分 发 报表 。 分 发 报表 功能 将 向 报表 订阅 者 交付 更 新 内 容 的 过 程 自动 化 。 可 以 单 次 分 发 报表 ， 也 可 以 定期 分 发 报表 ， 例 如 每 日 、 每 日 多 
次 、 每 周 或 每 月 。 另 外 ， 分 发 报表 功能 允许 创建 时 间 事 件 以 在 非 繁忙 时 间 生 成 报表 。 


分 上 发 报表 需要 两 个 步 又。 首先 ， 要 定义 报表 作业 ( 见 图 4-35) ， 其 中 包含 列 有 一 个 或 多 个 报表 的 列表 、 列 有 一 个 或 多 个 收 件 人 的 列表 以 及 可 选 的 电子 邮件 正文 。 报 表 作 业 所 有 者 
与 收 件 人 都 需要 注册 并 且 将 电子 邮件 地 址 存储 在 元 数据 中 ， 因 为 生成 报表 时 需要 使 用 收 件 人 的 数据 访问 权限 。 





新 建 报表 作业 x 


属性 | 电子 邮件 选项 ， 通知 7 





报表 : 加 share report 
link source 


图 4-35 ”创建 报表 作业 


， 要 创建 包含 有 报表 作业 与 时 间 事 件 的 分 友 。 时 间 事 件 指定 分 发 友 生 的 时 间 与 频率 。 分 发 运行 时 会 创建 一 个 历史 记录 。 当 创建 分 发 后 ， 可 以 预定 、 取 消 预 定 、 运 行 、 删 除 并 且 


4.5 ”本章 小 结 


本 章 介 绍 了 SAS 可 视 化 设计 器 和 SAS 可 视 化 图 形 生 成 器 ， 并 且 通 过 举例 介绍 了 如 何 通 过 SAS 可 视 化 设计 器 和 SAS 可 视 化 图 形 生成 器 生成 标准 报表 和 自 定义 的 报表 。 在 生成 标准 报表 
的 过 程 中 ， 我 们 还 介绍 了 如 何在 SAS 可 视 化 设计 器 中 处 理 数据 ， 如 何在 报表 中 实现 过 滤 、 交 互 和 链接 ， 以 及 在 报表 中 如 何 传递 参数 。 最 后 介绍 了 如 何 通过 SAS 可 视 化 分 析 实 现 报表 共 
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第 5 草 ” 钻 取 便 询 与 仪表 盘 


标准 报表 是 以 一 种 相对 静态 的 形式 展现 数据 的 形式 。 在 实际 的 报表 中 ， 经 常会 要 求 首先 看 到 汇总 的 数据 ， 然 后 基于 感 兴趣 的 汇总 数据 选择 性 地 进行 钻 取 ， 得 到 更 细 粒 度 的 数据 ， 这 
样 的 功能 可 以 通过 SAS Visual Analytics Designer 的 钻 取 查询 功能 实现 。 钻 取 查 询 可 以 通过 层次 逐步 查看 更 细 粒 度 的 下 层 数据 。 比 如 全 国 、 省 份 、 城 市 就 是 一 个 层次 ， 钻 取 查 询 可 以 查 
看 全 国 的 销售 情况 ， 也 可 以 通过 钻 取 查看 某 个 省 ,或 者 进一步 钻 取 查看 某 个 城市 的 销售 情况 。 


钻 取 查询 是 联机 分 析 处 理 (OLAP) 的 重要 功能 。 联 机 分 析 处 理 技 术 可 以 快速 对 多 维 数据 进行 汇总 分 析 。 常 见 的 维度 包括 时 间 维 度 、 地 理 维度 、 产 品 维度 、 客 户 维度 和 供应 商 维度 
。 传 统 的 数据 库 技 术 将 数据 以 二 维 的 形式 展现 ， 即 行 和 列 ， 而 联机 分 析 处 理 技术 将 汇总 之 后 的 数据 以 立方 体 (Cube) 的 形式 存储 ， 这 些 立方 体 的 生成 基于 某 个 特定 的 业务 问题 
时 立方 体 中 包含 了 多 个 维度 用 来 满足 特定 的 数据 分 析 需 求 。 联 机 分 析 处 理 技术 的 出 现 使 得 数据 的 展现 、 分 析 和 钻 取 更 加 便利 。 立 方 体 需要 对 维度 成 员 的 所 有 组 合 的 值 提前 进行 运算 。 维 
度 成 员 是 指 一 个 维度 的 合理 的 值 ， 例 如 ， 时 间 维 度 的 成 员 可 以 是 2017 年 、2018 年 、 第 一 季度 或 第 二 季度 等 。 这 种 提前 计算 使 得 联机 分 析 处 理 可 以 对 大 量 的 数据 进行 快速 分 析 ， 而 传统 
的 天 系 型 数据 库 无 法 做 到 这 点 。SAS Visual Analytics 利 用 了 SAS 的 LASR 分 析 服 务 器 ， 无 须 提前 进行 运算 即 可 对 数据 进行 大 规模 并 行内 存 分 析 人 处 理 ， 快 速 得 到 报表 结 


仪表 盘 在 数据 可 视 化 分 析 中 有 着 重要 的 直观 展示 数据 ， 支 持 决策 的 作用 。 仪 表盘 可 以 直观 回答 “目标 是 否 已 经 达成 ”“KPl 是 否 在 正常 范围 ”等 业务 问题 。 仪 表盘 展现 数据 的 方式 
非常 直观 ， 可 以 帮助 使 用 者 快速 理解 数据 信息 ， 帮 助 整个 组 织 以 一 种 通用 并 且 明 确 的 方式 传递 重要 的 指标 信息 。 许 多 组 织 都 在 使 用 仪表 盘 跟 踪 、 监 控 和 分 析 关 键 业务 指标 。SAS Visual 
Analytics 分 析 提 供 了 丰富 的 仪表 盘 功 能 ， 基 于 SAs 的 LASR 分 析 服 务 器 可 以 对 海量 数据 进行 快速 分 析 ， 生 成 仪表 盘 用 于 企业 决策 。 


5.1 ”创建 钼 取 硬 询 报 表 


创建 钻 取 查询 报表 首先 需要 创建 层次 ， 层 次 是 对 基于 父子 关系 的 类 别 进行 的 排列 。 层 次 级 别 的 排列 通常 是 将 一 般 的 信息 放 在 顶层 ,然后 是 具体 的 信息 。 例 如 ， 可 以 创建 一 个 时 间 的 
层次 ， 将 年 作为 顶层 ， 月 作为 下 一 个 层次 ,将 天 作为 最 低层 次 。 通 过 创建 层次 ， 可 以 向 可 视 化 图 形 中 添加 下 钻 功 能 。 例 如 ,创建 了 一 个 时 间 的 层次 ， 可 以 钻 取 到 | 特定 年 份 的 数据 ， 也 可 
以 继续 钻 取 到 特定 月 的 数据 。 


本 章 在 介绍 如 何 创建 层次 以 及 利用 层次 建立 钻 取 查询 报表 时 ， 使 用 的 是 “TOYS” 数 据 集 ， 该 数据 集 的 介绍 请 参考 第 4 章 的 第 2 节 ，。 


5.1.1 创建 层次 ， 生 成 钻 取 查询 报表 


假设 “TOYS” 数据 集 已 经 加 载 到 LAsR 分 析 服 务 器 中 ， 现 在 希望 创建 一 个 能 够 展现 不 同 工 厂 地 理 层次 对 应 不 同 产品 线 的 实际 收益 的 钼 取 碍 询 报表 。 
如 图 5-1 所 示 ， 创 建新 的 层次 ， 可 以 按照 下 面 的 步骤 : 

1) 从 数据 菜单 中 选择 新 建 层次 。 

2) 为 层次 输入 名 称 。 


3) 选择 要 在 层次 中 包含 的 类 别 ， 然 后 点 击 中 将 它们 添加 到 层次 。 
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图 5-1 ”新建 层 次 
下 面 是 一 个 先 创建 层次 ,再 利 用 层次 生成 钻 取 查询 交叉 报表 的 例子 。 


如 图 5-2 所 示 ， 首 先 选 择 新 建 层次 : 生成 “地 理 层次 ”， 包 含 三 个 层次 ， 从 高 到 低 分 别 为 工厂 所 在 区 域 、 工 三 所 在 州 、 工 三 所 在 城市 。 
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图 5-2 ”新 建 地 理 层 次 


然后 选择 生成 “交叉 表 ”: 将 生成 的 “地 理 层次 ”作为 行 ， 产 品 线 作 为 列 ， 实 际 收益 作为 测度 ， 得 到 如 图 5-3 所 示 的 交叉 表 。 
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工厂 所 在 区 域 a 

加 East 2166790 174302 394879 3100 
加 North 11083113 11071122 46298 
加 South 50113286 27828206 6959 
加 West 4861833 11203184 6338535 24381 


图 5-3 地理 层次 产品 线 交 叉 表 


可 以 单 击 钼 取得 到 区 域 “South” 的 所 有 州 不 同 产品 线 的 实际 收益 ， 如 图 5-4 所 示 。 


继续 钻 取 缩写 为 “AL” 的 州 ， 可 以 得 到 该 州 不 同城 市 不 同 产 品 线 的 实际 收益 ， 如 图 5-5 所 示 。 
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图 5-4 钻 取 交 又 表 
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图 5-5” 钻 取 缩 写 为 “AL” 的 州 


层次 除了 可 以 应 用 在 交叉 表 ， 还 可 以 应 用 在 图 形 类 的 报表 。 还 是 以 “TOYS” 数据 集 举例 ， 如 图 ?-6 所 示 ， 可 以 生成 条 形 图 用 来 展示 “地 理 层次 ”和 不 同 产品 线 的 实际 收益 数据 。 


将 类 别 设置 为 “地 理 层 次 ”， 组 设置 为 “产品 线 ”， 测 度 设置 为 “实际 收益 ” ， 建 立 条 形 图 。 
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图 5-6 ”象形 图 


因为 在 “地 理 层次 ”中 ， 工 厂 所 在 区 域 级 别 最 高 ， 所 以 在 图 5-7 中 可 以 看 到 “East” “North” “South” 和 “West” 区 域 不 同 产品 线 的 实际 收益 。 钻 取 收 益 最 高 的 “South”， 
可 以 看 到 “South” 下 属 州 的 不 同 产 品 线 的 实际 收益 。 
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图 5-7 钻 取 区 域 “South” 得 到 的 条 形 图 


继续 对 感 兴趣 的 数据 进行 钻 取 查询 ， 点 击 “AL” 则 可 以 对 “AL” 州 所 有 城市 的 不 同 产品 线 的 实际 收益 进行 查看 ， 如 图 5-8 所 示 。 
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图 5-8 钻 取 AL 州 得 到 的 条 形 图 


SAS Visual Analytics 钻 取 查 询 报表 最 多 可 以 接受 两 个 层次 。 以 “TOYS” 数据 集 举 例 ， 如 图 5-9 所 示 ， 可 以 分 别 建 立 两 个 不 同 的 层次 : 地 理 层次 和 产品 层次 。 地 理 层次 包含 工厂 所 
在 区 域 、 所 在 州 和 所 在 城市 。 产 品 层 次 包含 品牌 、 产 品 线 和 产品 。 


建立 交叉 查询 报表 ， 将 产品 层次 作为 列 ， 地 理 层次 作为 行 ， 实 际 收益 作为 测度 ， 可 以 得 到 如 图 5-10 所 示 的 钻 取 查询 报表 。 
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图 5-9 ”建立 产品 层次 和 地 理 层 次 


号 














曲牌 和 国 国 Novety 
工厂 所 在 区 域 。 Sk 二 
辐 East : 394879 2344192 
可 North | 22200533 
= ea \ 77948451 
国 West 6338535 15089398 


图 5-10 ”地理 层次 和 产品 层次 交 又 表 





若 分 别 对 工厂 所 在 区 域 “South” 和 品牌 “Toy” 进 行 钻 取 ， 可 以 看 到 “South” 范围 内 每 个 州 “Toy” 品 牌 下 不 同 产品 线 的 实际 收益 ， 如 图 5-11 所 示 。 


建立 层次 时 需要 特别 注意 ， 一 般 的 信息 应 该 排 在 顶层， 然后 是 具体 的 信息 。 以 地 理 层 次 为 例 ， 工 三 所 在 区 域 在 工厂 所 在 州 之 上 。 这 样 得 到 的 交叉 表 可 以 看 到 每 个 区 域 的 实际 收益 汇 


W， 也 可 以 继续 钻 取得 到 每 个 州 的 实际 收益 汇总 。 在 图 5-12 中 ，“South” 的 实际 收益 汇总 为 77948451， 钻 取 “South” 可 以 得 到 “AL” 这 个 州 的 实际 收益 汇总 为 30378235。 
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图 5-11 钻 取 地 理 层 次 和 产品 层次 交叉 表 


生 部 “地理 层 .…. 


33612130 


图 5-12 ”地 理 层 次 实际 收益 交叉 表 


如 果 在 地 理 层 次 当中 将 工厂 所 在 州 置 于 工厂 所 在 区 域 之 上 ， 和 那么 首先 会 得 到 每 个 州 的 实际 收益 汇总 ， 在 图 5-13 中 ，“AL” 这 个 州 的 实际 收益 汇 忠 为 30378235， 继 续 钴 取 “AL”， 
可 以 得 到 “AL” 所 在 的 区 域 “South” 的 实际 收益 汇总 还 是 30378235， 显 然 这 是 因为 不 合理 的 层次 造成 的 。 


工厂 所 在 州 。 
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图 5-13 不 合理 的 层次 设置 


5.1.2 ”编辑 层次 ， 更 新 钻 取 查询 报表 


如 果 层 次 已 经 应 用 在 报表 当中 ， 那 么 仍然 可 以 根据 需求 对 层次 进行 编辑 。 可 以 添加 新 的 类 别 到 层次 中 或 者 调整 层次 当中 类 别 的 顺序 。 如 果 需 要 编辑 一 个 层次 ， 只 要 右键 点 击 要 编辑 
的 层次 ， 然 后 选择 编辑 ， 编 辑 层次 窗口 随即 出 现 。 比 如 可 以 编辑 地 理 层次 ， 将 工厂 所 在 区 域 去 除 ， 新 的 地 理 层次 包含 工厂 所 在 州 、 工 三 所 在 城市 ， 如 图 5-14 所 示 。 
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并 工厂 所 在 区 域 
卫 工厂 六 型 
国 工厂 志 号 


He 年 性 


层次 经 过 编辑 后 ， 使 用 该 层次 的 所 有 报表 会 自动 友 生 相应 的 变化 。 在 交叉 表 中 ， 最 高 层次 变 成 了 工厂 所 在 州 ， 如 图 5-15 所 示 。 
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图 5-14 ”编辑 地 理 层 次 
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图 5-15 ”编辑 层次 后 生成 的 新 交叉 表 


点 击 钻 取 可 以 得 到 “AL” 这 个 州 所 有 城市 不 同 产 品 线 的 实际 收益 ， 如 图 5-16 所 示 。 
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图 5-16 ”和 钻 取 “AIL” 后 得 到 的 交 又 表 


同样 的 ， 使 用 该 层次 的 条 形 图 也 会 自动 更 新 ， 最 高 层级 变 成 工厂 所 在 州 后 ， 可 以 首先 看 到 每 个 州 不 同 产 品 线 的 实际 收益 的 条 形 图 ， 如 图 5-17 所 示 。 
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图 5-17 修改 层次 后 的 条 形 图 


点 击 “AL” 进 一 步 钻 取 ， 可 以 查看 “AL” 州 所 有 城市 的 不 同 产 品 线 的 实际 收益 ， 如 图 5-18 所 示 。 
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图 5-18 ”和 钻 取 “AIL” 后 的 条 形 图 
5.1.3 ”创建 时 间 层次 ， 生 成 钻 取 查询 报表 
对 于 日 期 、 时 间 类 型 的 数据 项 ， 可 以 自动 生成 层次 。 如 果 需 要 生成 层次 ， 可 以 右 击 某 个 日 期 、 时 间 的 数据 项 ， 然 后 选择 下 面 的 值 之 一 。 


创建 日 期 层次 : 创建 一 个 层次 ， 其 中 包含 年 、 季 度 、 月 和 日 的 级 别 。 


` 创建 日 期 和 时 间 层 次 : 创建 一 个 层次 ， 其 中 包 仿 年、 季度、 月 、 上 日、 小时、 分钟 和 秒 的 级 别 。 


` 创建 时 间 层 次 : 创建 一 个 层次 ， 其 中 包含 小 时 、 分 钟 和 秒 的 级 别 。 


“TOYS” 数 据 集 有 一 列 是 日 期 ， 可 以 通过 右键 对 日 期 创建 日 期 层次 变量 ,创建 成 功 后 在 层次 当中 可 以 看 到 日 期 层次 ， 如 图 5-19 所 示 。 


创建 交叉 表 ， 其 中 以 日 期 层次 作为 行 ， 实 际 收益 作为 列 ， 可 以 得 到 按照 年 度 汇 忌 的 收益 情况 ， 如 图 5-20 所 示 。 
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图 5-19 ”创建 日 期 层次 
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图 5-20 日 期 层次 实际 收益 交叉 表 


对 1980 年 进行 钼 取 ， 可 以 得 到 1980 年 四 个 季度 的 实际 收益 汇总 ， 还 可 以 继续 钻 取 ， 得 到 1980 年 第 一 季度 三 个 月 的 实际 收益 汇总 ， 如 图 5-21 所 示 。 
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1980 年 第 4 手 诬 

















图 5-21 钻 取 日 期 层次 实际 收益 交叉 表 


5.1.4 ”从 可 视 化 图 形 中 创建 层次 


除了 可 以 从 数据 菜单 中 选择 新 建 层次 ， 也 可 以 从 可 视 化 图 形 中 创建 层次 。 
以 从 交叉 表 中 创建 层次 为 例 。 图 5-22 所 示 的 交叉 表 中 ， 产 品 线 作为 列 ， 工 厂 所 在 州 、 城 市 作为 行 ， 实 际 收益 作为 测度 。 


右键 点 击 “ 创 建 层 次 ”， 即 可 生成 新 的 层次 ， 名 称 自动 设 定 为 “工厂 所 在 州 ”层次 ， 在 交叉 表 中 也 会 显示 新 生成 的 层次 ， 如 图 5-23 所 示 。 



















































































层次 所 包含 的 类 


通过 编辑 层次 ， 可 以 看 到 “工厂 所 在 州 ” 
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图 5-22 ”交叉 表 
30378235 | 
| l 19167 
5833906 30575 
. 4735 
174302 . 1238 
394879 

T37216 . 15723 
1862 
. 
4739595 5214 





图 5-23 ”创建 新 层次 


别 从 高 到 低 分 别 是 : 工厂 所 在 州 ， 工 三 所 在 城市 ， 如 图 5-24 所 示 。 
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图 5-24 ”编辑 新 层次 


5.2 ”创建 仪表 盘 


仪表 盘 是 一 种 指示 工具 ， 用 于 显示 与 目标 、 目 的 或 区 间 有 关 的 一 个 或 多 个 变量 的 状态 或 测度 。 在 现实 世界 中 ， 汽 车 ， 机 器 都 大 量 使 用 了 仪表 盘 。SAS Visual Analytics 提 供 了 一 种 
报表 对 象 叫 作 量具 ， 可 以 用 来 以 可 视 化 的 方式 实现 仪表 盘 的 功能 ， 量 具 可 以 用 来 显示 数量 、 范 围 、 变 量 或 状态 。 量 具 是 需要 使 用 范围 的 。 可 以 手动 填充 使 用 范围 ， 也 可 以 根据 实际 数据 
的 范围 进行 自动 填充 。 


量具 出 现在 对 象 选项 卡 当 中 ， 可 以 使 用 量具 属性 选项 卡 的 类 型 指定 要 在 报表 中 显示 的 量具 类 型 : 弹道 图 、 刻 度 盘 、 滑 块 图 、 温 度 计 和 速度 计 ， 如 图 5-25 所 示 。 


比如 可 以 选择 类 型 为 “速度 计 ”。 将 实际 收益 作为 关注 的 测度 ， 并 且 和 希望 每 个 城市 生成 各 自 的 仪表 盘 。 同 时 根据 业务 ， 制 定 天 于 收益 的 四 个 不 同 区 间 ， 如 图 5-26 所 示 。 
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图 5-26 ”定义 收益 区 间 
可 以 得 到 针对 每 个 城市 的 关于 收益 的 仪表 盘 如 图 5-27 所 示 。 
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图 5-27 ”城市 收益 速度 仪表 瘟 


如 果 和 希望 更 换 量具 类 型 ， 只 需要 在 量具 类 型 中 选择 。 比 如 选择 刻度 盘 ， 那 么 仪表 盘 会 自动 刷新 ， 如 图 5-28 所 示 。 
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图 5-28 ”城市 收益 刻度 仪表 盘 


5.3 ”本 章 小 结 


本 章 介 绍 了 SAS Visual Analytics 中 的 钻 取 查询 和 仪表 盘 功 能 。 针 对 钻 取 查询 ,我们 介绍 了 层次 的 概念 以 及 如 何 创 建 和 编辑 层次 ， 同 时 我 们 还 介绍 了 如 何 从 一 个 已 有 的 可 视 化 图 形 
当中 创建 层次 ， 以 及 如 何 创建 时 间 层 次 。 另 外 ， 我 们 还 介绍 了 SAS Visual Analytics 中 的 仪表 盘 功 能 。 


第 6 草 可视化 统计 分 析 与 预测 模型 


SAS Visual Statistics 是 SAS 可 视 化 家 族 的 重要 成 员 之 一 ， 既 有 基于 SAS LASR 分 析 服 务 器 的 版 本 ， 也 有 基于 SAS 的 最 新 分 析 平 台 SAS Viya 的 版 本 。 在 本 书 的 介绍 中 ， 将 专注 于 SAS 
LASR 分 析 服 务 器 的 版 本 。SAS Visual Analytics Explorer (简称 探索 器 ) 可 用 于 探索 、 研 究 数 据 源 并 将 其 可 视 化 ， 以 揭示 相关 模式 。SAS Visual Statistics 扩 展 和 深化 了 这 些 功能 ， 通 
过 基于 在 探索 器 中 发 现 的 模式 创建 、 测 试 和 比较 模型 。SAs Visual Statistics 可 以 在 进行 模型 比较 前 或 比较 后 导出 评分 代码 用 于 其 他 SAS 产 品 ， 并 将 模型 部 署 于 其 他 系统 。SAS Visual 
Statistics 中 可 以 进行 的 模型 分 析 方 法 有 线性 回归 、 人 逻辑 回归 、 广 义 线性 、 决 策 树 和 聚 类 等 。 


6.1 SAS Visual Statistics 介 绍 


SAS Visual Statistics 是 基于 Web 的 解决 方案 ， 与 SAS Visual Analytics 有 机 集成 ， 它 提供 交互 式 的 界面 ， 用 户 通过 拖 搜 就 可 以 快速 建立 和 修改 模型 。SAs Visual Statistics 充 分 利 
用 了 基于 SAS LASR 的 内 存 分 析 引 擎 ， 从 而 可 以 快速 分 析 在 内 存 中 的 大 量 数据 ， 同 时 它 还 允许 多 个 用 户 并 发 获取 内 存 中 的 数据 。SAs Visual Statistics 可 以 以 分 布 式 或 者 非 分 布 式 的 方式 


灵活 部 署 。 


SAS Visual Statistics 的 优点 在 于 它 拓 展 了 SAS Visual Analytics 的 高 级 分 析 功 能 ， 人 允许 用 户 利用 高 级 分 析 技 术 快 速 地 对 大 量 数据 进行 探索 分 析 ， 人 允许 用 户 在 短 时 间 内 对 更 多 的 模型 
进行 开发 、 验 证 和 评估 ， 将 选 定 的 冠军 模型 投入 到 生产 环境 中 ， 最 终 让 分 析 人 员 的 效率 得 到 提升 。 


SAS Visual Statistics 可 以 提供 两 类 不 同 的 模型 ， 一 类 为 预测 模型 ， 预 测 模型 一 般 涉 及 一 个 或 者 多 个 目标 变量 ，SAS Visual Statistics 针 对 预测 模型 提供 了 线性 回归 模型 、 逻 辑 回 归 
模型 、 广 义 线性 模型 和 决策 树 模 型 。 另 外 一 类 为 聚 类 模型 ， 聚 类 模型 没有 目标 变量 。 


6.2 SAS Visual Statistics 用 户 界 面 以 及 架构 


在 利用 SAS Visual Statistics 进 行 分 析 之 前 ， 首 先 对 SAS Visual Statistics 的 界面 做 简单 介绍 。 
假定 用 户 已 经 将 数据 加 载 到 SAS LASR 服 务 器 中 ， 用 户 可 以 在 探索 器 当中 获取 SAS Visual Statistics 的 所 有 功能 。 


SAS Visual Analytics Explorer 和 SAS Visual Statistics 共 享 同 一 个 用 户 界面 。 用 户 在 使 用 探索 器 进行 数据 探索 的 同时 ， 可 以 使 用 SAS Visual Statistics 所 提供 的 各 种 统计 分 析 和 预 
测 模型 的 方法 进行 更 深入 的 数据 分 析 。 数 据 区 允许 用 户 对 可 视 化 分 析 当 中 所 使 用 的 数据 进行 管理 ， 数 据 属性 区 可 以 对 单个 数据 项 的 属性 进行 设置 ， 工 作 区 用 来 展示 可 视 化 分 析 的 结果 ， 
在 分 析 工 作 区 ， 用 户 可 以 设置 分 析 当 中 的 角色 ， 添 加 过 滤 条 件 ， 注 释 等 ， 如 图 6-1 所 示 。 
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图 6-2 是 SAS Visual Statistics 部 署 在 一 台 机 器 上 的 架构 图 。 
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图 6-1 SAS Visual Statistics 用 户 


存储 在 Hadoop 或 者 各 类 数据 库 中 的 数据 可 以 加 载 到 SAS LASR 分 析 服 务 器 中 。 客 户 端 通过 中 间 层 与 SAS LASR 分 析 服 务 器 进行 通信 。 存 储 数据 的 Hadoop 或 者 各 类 数据 库 并 非 SAs 


探索 性 数据 分 析 





在 实际 的 环境 部 署 中 ， 元 数据 服务 器 、 中 间 层 、 计 算 层 都 可 以 根据 需求 部 署 在 不 同 的 机 器 上 。 


SAS® Visual Analytics 架构 





单个 机 苹 


元 数据 服务 寅 


J 
分 析 服 务 器 


图 6-2 ”SAS Visual Analytics 架 构图 


在 任何 一 个 数据 科学 的 项 目 当中 ， 探 索 数据 往往 是 最 开始 的 步骤 之 一 。 探 索性 数据 分 析 (Exploratory data analysis) 在 统计 学 当中 算是 比较 新 的 领域 。 经 典 统计 学 往往 更 看 重 推 
断 ， 从 总 体 当中 进行 抽样 ， 根 据 模型 得 出 结论 。 探 索性 数据 分 析 作 为 一 个 领域 最 早 于 1977 年 在 John Tukey 的 经 典 书 籍 《 探 索性 数据 分 析 》 中 被 提 及 。 随 着 现代 计算 技术 以 及 数据 分 析 
软件 的 普及 ， 探 索性 数据 分 析 也 得 到 了 长 足 的 发 展 。 推 动 探索 性 数据 分 析 技 术 的 主要 力量 是 不 断 发 展 的 大 数据 技术 以 及 在 各 种 领域 里 被 广泛 使 用 的 定量 分 析 技 术 。 


6.3.1 “探索 性 数据 分 析 人 简介 


经 典 统计 方法 通常 是 先 假定 一 个 模型 ， 例 如 数据 服从 某 个 分 布 ( 比 如 正 态 分 布 ) ， 然 后 使 用 适合 此 模型 的 方法 进行 拟 合 、 分 析 及 预测 。 与 经 典 统计 学 不 同 ， 探 索性 数据 分 析 通 常 不 
做 任何 假设 ， 而 是 首先 从 数据 出 友 ， 理 解数 据 ， 然 后 深入 探索 数据 的 内 在 规律 。 探 索性 数据 分 析 主 要 是 针对 历史 数据 进行 分 析 ， 针 对 历史 数据 的 探索 性 分 析 可 以 帮助 用 户 了 解 过 去 发 生 
了 什么 ， 进 而 有 可 能 会 发 现 一 些 潜 在 的 趋势 。 可 视 化 的 分 析 方 法 使 得 探索 性 数据 分 析 可 以 直观 快捷 地 实现 以 下 目的 : 


.发现 数据 当中 的 异常 

了解 数据 的 分 布 和 集中 程度 

针对 数据 得 出 初步 的 结论 

探索 性 数据 分 析 中 经 常会 用 到 各 类 图 形 化 方法 ， 如 柱状 图 、 盒 须 图 、 条 形 图 、 散 点 图 、 热 图 、 气 泡 图 以 及 正 态 概率 图 。 


从 更 广泛 的 意义 来 说 ， 任 何 本 质 上 具有 探索 性 的 方法 都 可 以 称 为 探索 性 数据 分 析 ， 因 此 一 些 经 典 的 多 元 统计 技术 也 被 认为 是 探索 性 数据 分 析 的 技术 。 比 如 ， 一 些 观点 认为 主 成 分 分 
析 ， 因 子 分 析 技 术 都 是 探索 性 分 析 技 术 。 


6.3.2 SAS Visual Statistics 实 现 探 泰 性 数据 分 析 


本 章节 在 介绍 SAS Visual statistics 各 类 模型 时 ， 对 线性 回归 模型 、 广 义 线性 模型 、 逻 辑 回归 模型 和 决策 树 模型 的 介绍 都 使 用 了 同一 个 数据 集 。 该 数据 集 有 一 百 万 个 观测 值 和 36 个 
变量 ， 其 中 包含 了 2 个 目标 变量 。 变 量 donation 反 映 了 潜在 捐款 人 是 否 对 募捐 活动 做 出 回应 ，donation amount 反映 了 潜在 捐款 人 的 捐款 数量 。 该 数据 由 某 非 营利 的 慈善 机 构 所 收 
集 ， 该 机 构 会 定期 向 潜在 捐助 人 发 起 募捐 活动 ， 旨 在 希望 最 有 捐款 可 能 的 潜在 捐助 人 能 够 进行 募捐 。 莫 捐 活 动 以 向 潜在 的 捐款 人 发 送 咒 卡 ， 邮 件 等 方式 进行 。 


表 6-1 摘 述 了 数据 集中 每 个 变量 以 及 变量 含义 。 


























编号 变量 名 称 类 型 | 角色 
请 在 相交 人 年 给 和 
入 人 
3 目标 
4 目标 
5 原始 数据 中 得 到 的 平均 捐款 数量 输入 
6 原始 数据 中 得 到 的 卡 活动 平均 捐款 数量 输入 
7 历史 捐款 次 数 汇总 字符 | 输入 
3 潜在 捐款 人 性 别 字符 | 输入 
输入 
1 给 入 
家 庭 收 和 入 
12 家 庭 收 入 分 组 字符 | 输入 
13 IN_HOUSE 捐助 项 目标 签 字符 | 输入 
1 历史 捐款 平均 答 和 
1 历史 捐款 总 和 席 输入 
1 历史 捐款 各 次 给 和 
18 历史 捐款 额度 范围 数值 | 输入 
1 历史 捐款 最 大 额度 输入 
20 历史 捐款 最 小 额度 数值 | 输入 
21 发 送 给 捐助 人 卡片 总 数目 数值 | 输入 
22 距离 第 一 次 捐款 时 间 (月 份 ) 输入 
23 距离 最 后 一 次 捐款 时 间 (月 份 ) 输入 

( 续 ) 
编号 含义 类 型 | 角色 
24 过 去 12 个 月 募捐 活动 数目 数值 | 输入 
2 衣 革 人 式 分 类 输入 
2 卡 活动 历史 捐 就 平 区 及 人 
28 自 1994 年 起 捐款 平均 数 输入 
29 输入 
30 自 1994 年 起 卡 活动 响应 比例 输入 
31 自 1994 年 起 所 有 活动 响应 次 数 数值 | 输入 
32 自 1994 年 起 所 有 活动 响应 比例 输入 
5 入 
4 社会 经 济 学 并 和 
3 给 入 
30 潜在 捐款 人 给 入 


首先 可 以 探索 分 类 型 的 目标 变量 donation， 将 donation 变 量 拖 入 工作 区 ， 可 以 看 到 在 所 有 一 百 万 潜在 捐款 人 中 ， 对 幕 捐 活动 做 出 回应 的 情况 。 可 以 看 到 将 近 25% (250034) 的 潜 
在 捐款 人 曾经 对 募捐 活动 做 出 回应 ， 而 近 75% (749966) 的 潜在 捐款 人 没有 做 出 任何 回应 ， 如 图 6-3 所 示 。 
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图 6-3 


继续 探索 连续 型 的 目标 变量 donation_amount， 将 donation_amount 变 量 拖 入 工作 区 ， 可 以 看 到 捐款 数量 明显 右 偏 ， 大 多 人 的 
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数量 在 50 以 下 ， 如 图 6-4 所 示 。 


ll 








or | 
加 加 ( 辕 部 党 卖 绎 


“donation_amount ”的 分 布 








7 国 类别 (15) [| 
鸭 donation 
鸭 frequency status_9T7nlk 
赎 Bender 
赎 home_owner 
赎 in_house 
用 income_eroup 


50, 000 — 


鸭 overlay source 40, 000 — 


用 Pep_star 
用 Published phone 
赎 receTcy_status_gbrlx 
赎 sEcluster 
力 SECluster_code 
用 wrbanicity 
用 wesalth_rating 
力 x_i drum 

了 命 测度 (33) 
? aBe 
Kg card prom_l2 
Ka donation_amount 
Kg file ave gift 
Kg file card gift 
Ka home_value 


中 


20, 000 — 


Ka house_income 

Kg last_egift_amt 

Kg lifetime ave_ eift_amt 
Kg lifetime_ gift_amount 
Kg lifetime_ gift_count 


10, 000 一 








属性 
名 称 
分 类 


模型 类 型 








1.00 


8.96 lB.92 24.88 32.84 40.80 








如 果 和 希望 探索 捐款 人 和 非 捐款 人 是 否 人 存在 某 些 特征 差异 ， 则 可 以 通 
人 年 龄 稍 大 ， 如 图 6-5 所 示 。 
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图 6-4 
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盒 须 图 可 以 观察 到 捐款 人 相对 非 捐款 
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图 6-5 ”捐款 人 和 非 捐 款 人 年 龄 差异 


6.4 线性 回归 模型 


线性 回归 模型 的 目的 在 于 对 连续 类 型 的 因 变量 进行 预测 。 通 过 建立 模型 ， 因 变量 可 以 表达 为 一 系列 自 变 量 的 线性 组 合 。 在 线性 回归 模型 方面 ，SAS Visual Statistics 提 供 了 下 面 两 


种 类 型 的 模型 : 
- 线性 回归 模型 
. 广义 线性 模型 


线性 回归 模型 在 探索 变量 的 关系 方面 非常 有 用 ， 它 的 应 用 范围 也 非常 广泛 ， 常 见 的 回归 模型 的 应 用 范围 有 数据 描述 、 参 数 估 计 和 预测 。 工 程 师 和 科学 家 们 经 常 使 用 方程 来 描述 一 组 
数据 ， 回 归 模 型 对 于 建立 这 类 的 方程 非常 有 帮助 。 举 例 来 说 ， 工 程 师 可 以 收集 到 大 量 的 有 关 两 个 变量 的 数据 ， 相 对 于 表 甚 至 图 形 ， 回 归 模 型 对 于 描述 数据 而 言 是 方便 而 且 准 确 的。 回归 
模型 的 另外 一 个 重要 的 应 用 就 是 预测 ， 当 预测 模型 建立 之 后 ， 就 可 以 利用 预测 模型 对 于 新 的 数据 进行 预测 。 


本 小 节 主要 阐述 线性 回归 模型 ， 广 义 线性 模型 在 6.6 节 阐述 。 


6.4.1 ”线性 回归 模型 简介 


线性 回归 模型 假定 自 变 量 和 多 个 因 变 量 之 间 的 关系 是 线性 的 ， 其 模型 可 以 表达 为 
y=BotBix1+B2x2+**"+BrXk+e 


Bi(i=1,.…,k) 代 表 着 当 自 变量 x 变化 一 个 单位 ， 而 其 余 自 变量 都 保持 不 变 时 ， 因 变量 改变 的 量 。 考 察 模 型 表达 式 ， 可 以 看 出 在 线性 回归 模型 的 建 模 过 程 中 ， 主 要 工作 就 是 对 自 变量 
x 的 选取 以 及 对 参数 B 二 De 的 估计 。 参 数 估计 的 最 常见 的 方法 是 最 小 二 乘法 或 者 最 大 似 然 估计 方法 ， 线 性 回归 模型 只 有 一 个 连续 型 的 因 变量 (Response) ， 模 型 的 解释 变量 可 以 是 连续 
型 的 ， 分 类 型 的 或 交互 作用 类 型 的 。 举 例 来 说 ， 有 自 变量 x1，x2 和 因 变 量 y， 那 么 自 变量 x1，x2 的 交互 作用 就 可 以 用 两 个 变量 的 乘积 表示 ， 因 此 模型 就 可 以 表示 为 


y=BotB1X1+B2x2+B12X1X2+e 


1. 线 性 回归 模型 变量 筛选 
当 自 变量 个 数 越 来 越 多 时 ， 自 变量 的 入 选 就 非常 重要 。 线 性 回归 模型 中 常用 的 几 种 变量 筛选 方式 为 
. Stepwise 选 择 法 
. Backwatd 选 择 法 
. Fotwatd 选 择 法 


Forward 选 择 法 第 一 步 会 建立 包含 一 个 自 变量 的 模型 ， 这 个 自 变量 是 所 有 自 变量 中 最 显著 的 一 个 ;第 二 步 从 其 余 自 变量 中 选择 一 个 自 变 量 进入 模型 ， 使 得 进入 的 自 变量 是 剩余 自 变 
量 中 最 显著 重要 的 ， 重 新 拟 合 模型 ， 重 复 第 二 步 ， 直 到 剩余 变量 中 没有 变量 显著 重要 。 


Backward 选 择 法 和 Forward 方 法 正好 相反 ， 第 一 步 建 立 一 个 包含 所 有 自 变 量 的 模型 ,第 二 步 ， 保 留 模 型 中 的 显著 的 变量 ， 吻 除 出 最 不 显著 的 自 变量 ， 重 新 拟 合 模型 ， 重复 第 二 
步 ， 直 到 模型 中 所 有 变量 都 是 显著 为 止 。 


stepwise 选 择 法 基于 Forward 选 择 法 ， 第 一 步 会 建立 包含 一 个 自 变 量 的 模型 ， 这 个 自 变 量 是 所 有 自 变 量 中 最 显著 的 一 个 。 第 二 步 在 模型 中 引进 新 的 自 变量 的 同时 ， 会 对 模型 中 已 
有 的 自 变 量 重新 评估 ， 吻 除 现 有 自 变 量 中 的 不 显著 变 


SAS Visual Statistics 中 可 以 选择 的 变量 筛 选 方 法 为 Backward 选 择 法 。 
2. 线 性 回归 模型 诊断 


线性 回归 模型 的 建 模 过 程 中 ， 可 以 用 残 差 图 和 影响 图 等 信息 做 模型 诊断 。 残 差 图 中 残 差 的 表现 形式 有 : Residual、Studentized Residual、PRESS 和 和 Studentized Deleted 
Residual。 以 Studentized Residual 举 例 ， 一 般 认为 |studentized Residuall> 3 的 观测 是 异常 的 ， 需 要 进一步 调查 。 


影响 图 中 的 影响 参数 有 : Cook” s D、Covariance Ratio、DFFITS、Leverage 和 Likelihood Displacement。 以 Cook”s D 举 例 ， 它 表征 了 当 删 除 基 个 观测 之 后 ， 参 数 估计 发 生 
的 变化 ， 一 般 认 为 Cook”s D>4/n 的 观测 是 有 影响 力 的 ， 需 要 特别 关注 。 


对 于 线性 回归 以 及 与 其 模型 相关 的 更 多 理论 原理 本 书 不 作 深入 介绍 ， 有 兴趣 的 读者 可 以 参阅 《深入 解析 SAS》 一 书 。 


6.4.2 SAS Visual Statistics 线 性 回归 可 视 化 分 析 


1. 线 性 回归 模型 变量 角色 


线性 回归 模型 变量 的 角色 如 图 6-6 所 示 ， 其 中 的 说 明 如 下 。 





洲 线性 回归 
坟 搞 滁 : PVA 
I Fe 





交 卫 效应 创建 


i jr 
入 坦 居 扒 一 -一 





图 6-6 ”线性 回归 模型 变量 的 角色 


. 响应 : 一 个 连续 型 响应 变量 


相间 


“ 连续 效应 : 一 个 或 者 多 个 连续 型 变 
“ 分 类 效应 : 一 个 或 者 多 个 分 类 型 变量 
` 安 互 效应 ; 一 个 或 者 多 个 交互 项 


* 分 组 依据 : 定义 不 同 的 模型 组 


用 户 需要 首先 创建 交互 项 ， 然 后 才能 将 交互 项 赋予 交互 效应 的 角色 。 如 果 指 定 了 多 个 分 组 依据 ， 这 些 组 会 合并 起 来 组 成 联合 组 。 频 数 变 量 会 被 指定 对 每 个 效应 做 频数 分 析 ， 如 果 频 
数值 不 是 整数 ， 会 被 截断 成 为 整数 ， 如 果 小 于 1 或 者 缺失 ， 相 对 应 的 观测 不 被 使 用 。 权 重 变量 会 在 求解 线性 模型 的 时 候 作为 权重 。 


添加 角色 会 自动 更 新 模型 ， 如 果 不 想 在 添加 角色 的 时 候 更 新 模型 ， 需 要 清除 角色 窗口 底部 的 “自动 更 新 ”。 在 定义 了 所 有 角色 之 后 ， 可 以 点 击 角色 窗口 底部 的 “更 新 ”。 
2. 线 性 回归 模型 属性 


线性 回归 模型 的 属性 如 图 6-7 所 示 ， 相 应 的 说 明 如 下 。 








图 6-7 ”线性 回归 模型 的 属性 


. 信息 性 缺失 : 要 求 缺 失 数 据 经 过 特别 处 理 后 依然 在 模型 中 使 用 。 特 别处 理 包 括 创建 哑 变 量 ， 当 连续 型 的 变量 缺失 时 ， 哑 变量 的 值 为 1， 当 连续 型 的 变量 不 缺失 时 ， 哑 变量 的 值 为 
0。 对 于 连续 型 的 变量 ， 缺 失 值 用 平均 值 补 全 。 


. 使 用 变量 选择 : 使 用 快速 向 后 选择 (Fast backwatd selection) 算法 来 决定 哪些 变量 留 在 模型 中 。 如 果 勾 选 了 “使 用 变量 选择 ”， 还 可 以 设 定 显 著 性 水 平 。 变 量 选择 试图 减少 自 变 
量 的 个 数 ， 在 模型 中 只 保留 最 重要 的 一 些 变量 。 


评估 : “使 用 默认 丰 条 数 ”指定 了 在 评估 图 中 lift 计 算 中 所 使 用 的 bin 的 个 数 ， 该 值 默认 设 定 为 20， 用 户 可 以 输入 别 的 值 。 增 加 bin 的 个 数 可 以 增加 评估 的 准确 性 ， 代 价 是 计算 时 间 
增加 。“ 容 差 ”指定 了 决定 迭代 算法 收敛 的 值 。 设 定 一 个 更 小 的 值 可 以 提升 算法 的 精度 。 


` 显示 诊断 图 : 可 以 展示 残 差 图 ， 评 估 图 和 影响 图 。 


3. 绪 性 回归 模型 过 滤 


线性 回归 模型 的 过 滤 如 图 6-8 所 示 。 
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可 和 惕 体 袖 疾 丰 
疆 数 据 项 拖 社 此 外 以 过 滤 态 可 视 化 雪上 度 
图 6-8 ”线性 回归 模型 的 过 滤 界 面 
有 两 种 类 型 的 过 滤 ， 应 用 在 过 滤 页面 上 半 部 分 的 过 滤 变 量 会 应 用 到 对 应 数据 源 的 所 有 数据 可 视 化 操作 ， 应 用 到 过 滤 页 面 下 半 部 分 的 过 滤 变量 只 会 应 用 在 当前 的 数据 可 视 化 操作 。 
如 图 6-9 所 示 ， 线 性 回归 的 结果 由 四 个 部 分 组 成 : 
` 拟 合 汇总 : 展示 了 每 个 变量 在 模型 中 的 重要 性 
` 残 差 图 : 展示 实际 值 和 预测 值 之 间 的 差异 
` 评估 : 根据 分 箱 数 据 展 示 观 测 平 均值 和 预测 平均 值 
影响 图 : 展示 可 能 会 对 整体 分 析 产 生 影 响 的 观测 
(1) 拟 合 汇总 
通过 “变量 重要 性 ”展示 每 个 自 变 量 对 于 因 变 量 的 重要 性 。 在 “ 拟 合 汇总 ”中 ，X 轴 代表 P 值 ，Y 轴 代表 每 个 自 变 量 ， 变 量 重要 性 是 基于 每 个 变量 对 应 的 P 值 的 对 数 的 负 值 ， 垂 直 的 
显著 性 水 平 线 为 -log(0.05)。 将 鼠标 放置 在 垂直 的 显著 性 水 平 线 上 可 以 看 到 对 应 的 值 ， 点 击 该 线 可 以 移动 该 线 从 而 改变 显著 性 水 平 。 
显著 性 是 由 颜色 和 每 个 变量 所 对 应 的 水 平 条 状 图 的 长 度 所 决定 的 。 绿 色 的 水 平 条 状 图 意味 着 变量 重要 性 在 默认 的 显著 性 水 平 (alpha=0.05) 之 上 ， 绿 色 水 平 条 状 图 的 长 度 越 长 意 
味 着 该 变量 对 于 预测 的 意义 越 大 ， 蓝 色 的 水 平 条 状 图 意味 着 该 变量 的 重要 性 低 于 默认 的 显著 性 水 平 。 
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图 6-9 ”线性 回归 模型 的 结果 ( 附 彩 图 ) 


残 差 图 

残 差 图 以 散 点 图 或 者 热 图 的 方式 展示 了 预测 值 和 真实 值 之 间 的 差异 。 残 差 图 可 以 用 来 评估 模型 的 质量 ， 并 且 可 以 用 来 发 现 离 群 值 。 当 观测 数 比 较 少 的 时 候 ， 残 差 图 以 散 点 图 显示 。 
当 观 测 数 比较 多 的 时 候 ， 残 差 图 以 热 图 显示 。 残 差 图 的 X 轴 为 预测 值 ，Y 轴 默认 显示 Studentized Deleted Residual， 可 以 选择 不 同 的 统计 量 : Residual，Studentized Residual 或 者 
Press。 

如 果 残 差 图 中 显示 大 部 分 的 点 在 -2 和 +2 之 间 ， 表 明 线 性 模型 拟 合 的 较 好 。 残 差 图 中 选择 一 部 分 对 于 模型 有 影响 的 点 会 同时 高 亮 影响 图 。 在 残 差 图 中 选择 部 分 数据 ， 右 键 选 择 “ 排 
除 选 定 ”会 自动 重新 拟 合 模型 ， 并 且 在 建 模 过 程 中 排除 这 部 分 数据 。 

残 差 图 在 验证 模型 中 有 一 定 的 作用 。 首 先 ， 残 差 图 中 出 现 明 显 的 模式 表明 模型 不 能 很 好 地 拟 合 数据 。 其 次 ， 残 差 图 通过 残 差 和 预测 值 的 散 点 图 可 以 探测 到 数据 中 方差 的 差异 。 最 
后 ， 结 合 其 他 的 方法 ， 残 差 图 可 以 帮助 发 现 数据 当中 的 离 群 值 。 


~ 


评估 
评估 图 是 另外 一 种 验证 模型 拟 合 好 坏 的 方式 。 评 估 图 在 Y 轴 显示 真实 值 和 预测 值 ，X 轴 显示 分 位 数 。 显 示 真 实 值 和 预测 值 的 两 条 曲线 距离 越 折 ， 模 型 拟 合 的 越 好 。 
影响 图 


影响 图 显示 那些 对 于 模型 建立 有 影响 的 观测 。 影 响 图 可 以 用 来 探测 哪些 观测 对 于 模型 有 较 大 的 影响 。 观 测 值 是 离 群 值 并 且 有 较 大 的 杠杆 通常 表明 观测 值 对 于 建 模 有 较 大 的 影响 。 杜 
杆 指 的 是 一 个 观测 在 一 个 或 者 多 个 自 变 量 上 有 极 值 。 如 果 一 个 数据 的 去 除 对 于 回归 模型 的 参数 估计 有 较 大 的 影响 ， 那 么 该 数据 就 是 有 影响 的 观测 。 影 响 图 可 以 帮助 决定 是 否 需 要 将 离 群 
值 从 建 模 过 程 中 去 除 。 


影响 图 中 Y 轴 显示 的 是 观测 ，X 轴 显示 的 是 影响 参数 ， 默 认 是 Cook”s D， 可 以 选择 不 同 的 影响 参数 : Covariance Ratio，DFFITS，Leverage，Likelihood Displacement。 水 平 
的 蓝 色 柱 越 长 代表 观测 的 影响 越 大 。 选 定 一 个 或 者 多 个 柱子 可 以 同时 高 亮 残 差 图 中 相对 应 的 观测 ， 右 键 选 择 “ 排 除 选 定 ” 可 以 将 这 些 观 测 从 建 模 过 程 中 去 除 ， 模 型 会 自动 重新 拟 合 。 


6.4.3 SAS Visual Statistics 线 性 回归 模型 举例 


将 age 变量 拖 入 工作 区 ， 默 认 建 立 一 个 条 形 图 。 假 定 希 望 在 建 模 的 数据 当中 过 滤 掉 年 龄 小 于 18 岁 的 ， 可 以 在 过 滤器 当中 创建 一 个 “age> =18” 的 过 滤 ， 同 时 勾 掉 “包括 缺失 
值 ” 的 选项 。 


可 以 看 到 通过 这 个 过 滤器 ，74% 的 数据 得 以 保留 (742515/1000000) ， 如 图 6-10 所 示 。 
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图 6-10 ”通过 年 龄 进行 数据 过 滤 


通过 过 滤器 下 拉 框 ， 可 以 将 该 过 滤 转 换 为 数据 源 过 滤器 ， 因 此 数据 占 比 重新 回 到 了 100%。 


last gift amt 及 lifetime avg gift amt 均 与 donation_ amount 存在 较 强 的 相关 性 ， 如 图 6-11 所 示 。 
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将 数据 项 扼 至 此 处 以 过 滤 该 可 视 化 视图 。 


四 自动 更 新 更 新 | 


量 file avg gift、 


过 数据 过 滤 后 ， 选 择 创建 “相关 和 矩 阵 ” 图 形 。 选 择 donation _ amount 以 及 可 能 和 它 相关 联 的 若干 变量 ， 得 到 “相关 和 矩阵 ”图 ， 可 以 看 到 有 三 个 变 
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图 6-11 变量 相关 矩阵 图 ( 附 彩 图 ) 


有 


择 “相关 和 矩 阵 ” 图 形 中 最 左面 的 列 ， 并 且 从 上 到 下 全 选 ， 可 以 启动 “线性 回归 ”模型 ， 如 图 6-12 所 示 。 
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图 6-12 ”通过 相关 撼 阵 启动 线性 


该 线性 模型 是 基于 188174 条 观测 得 出 的 ， 另 外 有 554341 条 记录 因为 donation amount 的 值 缺 失 而 未 被 使 用 。 该 线性 模型 当中 donation_ amount 为 因 变量 ， 其 余 的 若干 连续 性 的 
变量 为 自 变量 ， 目 前 的 初始 R 方 为 0.5312， 如 图 6-13 所 示 。 
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图 6-13 ”线性 模型 结果 


在 前 面 描述 的 “相关 和 矩阵 ”中 ， 有 三 个 变量 和 donation_ amount 存在 强 相 关 ， 分 别 是 file avg gift、last gift amt 和 lifetime avg gift amt， 放 大 “ 拟 合 汇 总 ”， 可 以 看 到 在 模 
型 当中 只 有 last gift amt 对 应 的 P 值 小 于 0.05， 如 图 6-14 所 示 。 
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图 6-14 ” 拟 合 汇总 结果 


<D. 00001 


可 以 引入 更 多 变量 看 能 否 提升 模型 。 加 入 分 类 变量 gender、home owner、income group、overlay source 和 recency status 96nk 进 入 模型 中 。 模 型 的 R 方 只 有 微小 提升 


(0.5361) ， 如 图 6-15 所 示 。 
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图 6-15 ”加 入 分 类 变量 的 线性 模型 结果 


继续 引入 交互 效应 in_house*frequency_status_97nk 到 模型 中 ， 看 到 R 方 有 微小 提升 (0.5419) ， 同 时 在 “ 拟 合 汇总 ” 


in_house*frequency status 97nk 是 显著 的 。 如 图 6-16 所 示 。 
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重 | 则 可 各 化 加 图 1 其 | |L 司 入 尼 视 因 2 其 


将 SECIuster 作 为 “分 组 依据 ”， 这 样 可 以 针对 每 个 不 同 SECluster 的 值 ， 
据 ，R 方 最 高 (0.9358) ， 如 图 6-17 所 示 。 
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图 6-16 ”新 的 拟 合 汇总 结果 


进行 建 模 。 看 到 针对 每 个 不 同 SECluster 的 值 的 拟 合 优 度 以 及 变量 重要 性 。 针 对 SECluster 为 “4” 的 数 


ll 








donation_ amomt 了 方 0.9358 使 用 的 观测 : 2,648 未 使 用 : 11,884 
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下 | 岂可 视 化 宙 图 1 X | | 可 视 化 视图 2 X| 
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图 6-17 SEClustet 为 “4” 的 线性 模型 结果 


选择 SECluster 为 “? ”， 查 看 残 差 图 和 影响 图 ， 选 择 残 差 较 大 的 观测 ， 可 以 看 到 相对 应 的 影响 图 当中 一 些 观 测 同步 被 选 定 ， 将 这 些 观测 去 除 ， 可 以 显著 的 提升 模型 的 R 方 


(0.964) ， 如 图 6-18 所 示 。 


| 央 | 可 视 化 视图 3 二 四 xX 


donation_amount 下 方 0.9643 使 用 的 观测 : 4 071 未 使 用 : 10,053 
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下 | 则 可视化 视图 1 x | 旦 可 视 化 视图 2 x| 


图 6-18 ”去 除 残 差 较 大 数据 后 的 模型 结果 
进一步 查看 模型 详细 信息 ， 仍 然 关注 SECluster 为 “? ”的 模型 详细 信息 ， 可 以 看 到 针对 SECluster 为 “? ”的 线性 模型 的 ANOVA 信 息 汇 总 ， 如 图 6-19 所 示 。 


全 面 ABOVA | 维 | 拟 合 统计 旺 | 模型 NOVA | III 型 检验 | 参数 估计 





源 自由 度 平方 和 均 方 Ff 值 Beas R 方 
Model 38 2442520 B4276. 85 2870. 189 <0. 0001 0. 96435 
Error 4032 90295. 18 22. 39464 

Corrected Total 4070 2532816 


图 6-19 ANOVA 信 息 汇 总 


全 面 pW | 维 “| 拟人 统计 里 | 神 型 YA | II 型 检验 | 参数 估计 
自由 度 平方 和 均 方 F 什 pr > 了 





house_income 1 11.9628 11.9628 0.534181 0. 4649 
lifetime max_elft_ amt 0 

card prom_l2 1 45. 01207 45. 01207 2.009948 0. 1563 
age 1 3182. 335 3182. 335 142. 1026 <D. 0001 
file card eift 1 43. 02414 43. 02414 1.92118 0. 1658 
mmber_prom_l2 1 87. TOBS1 87. TOBS1 3.916407 0.0479 
months_since_first_eift 1 1287. 233 1287. 233 57.47952 <D. 0001 
lifetime_gift_count 1 2233. 18B 2233. 18B 99. T1967 <D. 0001 
lifetime_prom 1 1344. 257 1344. 257 BO0. O02582 <D. 0001 
lifetime_ ave_elift_amt 1 12. 12918 12. 12918 0.541611 0.4618 
last_gift_amt 1 39393. 26 39393. 28 1759. 05 <D. 0001 
lifetime gift range 0 

file_ ave_eift 1 12.73088 12.73088 0.568479 0.4509 
home_value 1 475. 0442 475. 0442 21.21241 <D. 0001 
lifetime mirn eift amt 0 

lifetime_gift_amount 1 255. B132 255.6132 11. 41404 0.0007 
months_since last_eift 1 240. 0615 240. 0B15 10. 7196 0.0011 
gender 2 885. 0189 442. 5094 19. T5962 <D. 0001 
home_owner 1 1058. 054 1058. 054 47. 24585 <D. 0001 
income_eroup 5 B554. 197 1310. 839 58. 53363 <D. 0001 
overlay_source 2 11180. 26 5590. 129 249. B191 <0. 0001 
recency_ status_9Bnk 4 2053. 16 513.29 22. 92022 <D. 0001 
in house*frequency status giTnk 站 29661. 88 4237. 412 189. 2155 <0. 0001 

















全 面 ANOWA | 维 ”| 拟 合 统计 量 | 模型 MOYA | III 型 检验 | 参数 震 计 | 

估计 标准 误差 :从 wr > lt 
Intercept -19. 1548 | le. -16. 8214 <0. 0001 | 仿 | 
house_income 0.000652 0. 000892 0.730877 0. 4649 
lifetime max_elift_amt 0.0755 0.043703 ISO 0.0841 
card_prom_l2 0. 100991 0.071234 1. 417727 0. 1563 
aEe 0.090208 0.007567 11.92068 <D. 0001 
file_ card eift -0. 08529 0.061533 -1.38607 0. 1658 
rmber_prom_l2 0.064274 0.032478 1.978991 0.0479 
months_since first eift 0.053152 D0.007011 T.581525 <0.0001 | = 
lifetime_ gift_count -0. 31782 0.031827 -9. 98597 <D. 0001 
lifetime_prom 0. 119732 0.015454 T.T47633 <0. 0001 
lifetime ave_ eift_amt 1. 119376 U2 0. 735942 0.4618 
last_eift_amt 0. T24151 0.017266 41.94103 <0. 0001 
lifetime gift range -0.01741 0.036242 -0. 48027 0.6311 
file ave_eift -1.14701 1.521279 -0. 75398 0. 4509 
home_value 0.000735 0.00016 4.605693 <D. 0001 
lifetime min elft amt 0 
lifetime_ gift_ amount -0.00617 0.001826 = 0.0007 
months_since last_eift -0.08736 0.026682 -3.27408 0.0011 
Eender F 0. 42192 0. 384402 1.097601 0.2724 
gender 由 1. 807382 0. 426254 4.24015 <D. 0001 
eender U 0 
home_owner H 1. 729391 0.2516 B. 873561 <0. 0001 
home_owner U 0 s 
income_er oup . 5. 90097 0. 47BT92 12.37641 <D. 0001 
income_er oup 区 2.825607 0. 474693 5.952491 <D. 0001 
income_er oup 3 4. 207858 0. 424851 9. 90432 <D. 0001 








图 6-20 ANOVA 模 型 以 及 参数 估计 


6.5 ”逻辑 回归 


线性 回归 模型 是 一 种 常用 的 分 析 连 续 型 因 变 量 与 自 变量 之 间 相 关 关 系 的 统计 分 析 方 法 。 当 因 变 量 是 分 类 变量 而 不 是 连续 变量 时 ， 如 果 继 续 使 用 线性 回归 模型 就 会 有 问题 ， 比 如 ， 我 
们 希望 预测 一 个 贷款 申请 者 是 否 可 能 会 违约 ， 这 里 违约 就 是 因 变量 ， 它 的 值 可 以 为 1 (代表 违约 ) 或 者 为 0 (代表 不 违约 ) 。 如 果 使 用 线性 模型 去 分 析 因 变量 是 分 类 型 的 数据 ， 可 能 会 
出 现 预测 结果 大 于 1 或 者 小 于 0， 而 当 因 变量 是 分 类 型 的 变量 时 ， 我 们 关心 的 是 因 变 量 取 每 种 值 的 概率 ， 即 这 个 人 违约 的 概率 。 一 般 来 说， 我 们 使 用 逻辑 回归 探索 分 类 因 变 量 和 多 个 自 
变量 之 间 的 关系 。 


6.5.1 逻辑 回归 模型 简介 


逻辑 回归 的 模型 可 以 表达 为 


log| —— |=Q+ px t+ px tt Px 


这 里 pi 是 指 yi=1 的 概率 ， 等 号 左边 的 表达 式 通 常 被 称 作 |logit 或 者 log-odds。 


上 述 方 程 求解 可 以 得 到 |: 


] 
] + exp 一 Q — px, — Pp,X,, 时 he | 


exp(x) 是 一 个 指数 阔 数 ， 等 于 e“*， 该 等 式 的 一 个 重要 特征 就 是 无 论 B 和 x 的 值 是 什么 ，pi 的 值 永远 都 在 0 和 1 之 间 。 


为 了 更 好 地 理解 逻辑 回归 模型 ， 我 们 需要 理解 友 生 比 (odds) 、 发 生 比率 (odds ratio) 和 概率 (probability) 这 三 个 概念 之 间 的 关系 。 一 般 我 们 认为 概率 可 以 很 自然 地 代表 一 
种 事件 发 生 的 可 能 性 ，0 意 味 着 事件 不 会 友 生 ，1 意 味 着 事件 肯定 发 生 。 实 际 上 ， 发 生 比 也 能 很 形象 地 代表 事件 发 生 的 可 能 性 。 比 如 发 生 比 为 4 意味 着 事件 发 生 的 概率 是 事件 不 发 生 的 概 
率 的 4 信 。 在 发 生 比 和 概率 之 间 存 在 着 下 面 的 简单 关系 ， 其 中 p 是 事件 发 生 的 概率 ，odds 是 事件 发 生 的 发 生 比 : 


odds = 





1+odds 


通过 上 面 的 公式 ， 可 以 很 容易 得 知 ， 随 着 概率 的 增加 (从 0 到 1) ， 发 生 比 也 逐渐 增加 (从 0 到 +co) ， 发 生 比 小 于 1 意味 着 概率 小 于 0.5， 发 生 比 大 于 1 意味 着 概率 大 于 0.5。 为 什么 
要 引入 发 生 比 呢 ? 举例， 比如 在 某 次 营销 互动 中 ， 客 户 A 响 应 这 次 活动 的 概率 是 0.3， 客 户 B 响 应 这 次 活动 的 概率 是 0.6， 那 么 我 们 可 以 说 客户 B 响 应 活动 的 概率 是 客户 A 响 应 活动 概率 的 2 
倍 。 可 是 假如 客户 A 响应 这 次 活动 的 概率 是 0.6， 那 么 不 可 能 有 客户 响应 这 次 活动 的 概率 依然 是 客户 A 的 2 售 。 如 果 引 入 了 发 生 比 的 概念 ， 这 个 问题 就 不 存在 了 。 客 户 A 响 应 概率 0.6 所 对 
应 的 发 生 比 是 0.6/0.4=1.5。 如 果 有 客户 的 响应 发 生 比 是 客户 A 响 应 发 生 比 的 2 倍 即 1.5x2=3， 那 么 这 些 客户 响应 活动 的 概率 为 3/(1+3)=0.75。 这 样 就 很 自然 地 引入 了 发 生 比率 (odds 
ratio) 的 概念 ， 发 生 比率 是 根据 发 生 比 计算 出 来 的 ， 用 来 比较 两 组 数据 中 事件 发 生 比 的 指标 。 


举例 ， 现 在 有 180 个 观测 ， 其 中 组 A 售 有 80 条 观测 ， 组 B 含 有 100 条 观测 ， 组 A 中 有 60 条 观测 观察 到 事件 上 发生， 组 B 中 有 90 条 观测 观察 到 事件 发 生 ， 见 表 6-2。 


表 6-2 ”观测 示例 





那么 ， 组 A 中 事件 发 生 的 概率 为 60/80=0.75， 组 A 中 事件 不 发 生 的 概率 为 20/80=0.25， 则 组 A 中 的 发 生 比 =0.75/0.25=3; 组 B 中 事件 发 生 的 概率 为 90/100=0.9， 组 B 中 事件 不 发 生 
的 概率 为 10/100=0.1， 则 组 B 中 的 发 生 比 =0.9/0.1=9。 因 此 ， 组 B 相 对 于 组 A 的 发 生 比 率 = 组 B 中 的 发 生 比 /组 A 中 的 发 生 比 =9/3=3， 它 是 组 B 与 组 A 的 发 生 比 之 间 差 别 的 测量 。 发 生 比 率 
为 3， 意 味 着 组 B 中 事件 发 生 的 发 生 比 为 组 A 中 事件 发 生 的 发 生 比 的 3 倍 。 


如 果 我 们 把 组 A 和 组 B 看 成 一 个 自 变量 的 两 种 取 值 ， 那 么 帮 生 比率 就 可 以 理解 为 自 变 量 对 事件 发 生 概 率 的 作用 : 
" 大 于 1 的 发 生 比率 表明 事件 发 生 的 可 能 性 会 提高 ， 或 者 说 ， 自 变量 对 事件 发 生 的 概率 有 正 的 作用 。 
- 小 于 1 的 发 生 比率 表示 事件 发 生 的 可 能 性 会 降低 ， 或 者 说 ， 自 变量 对 事件 发 生 的 概率 有 负 的 作用 。 
发生 比 率 为 1 表示 自 变 量 对 事件 发 生 概率 无 作用 。 
比如 ， 一 个 逻辑 回归 的 模型 为 
logit(p)=-0.7567+0.4373 X gender 


在 这 个 模型 中 ，gender 是 “female” 时 的 值 为 1，gender 是 “male” 时 的 值 为 0。 可 以 看 出 ， 参 数 估计 值 是 自 变 量 增加 一 个 单位 时 logit(p) 的 改变 量 ， 也 就 是 说 当 gender 
从 “male” 变 为 “female” 时 ， 事件 发 生 的 发 生 比 的 对 数 取 值 会 增加 0.4373。 将 逻辑 回归 的 模型 改写 为 


odds=exp(-0.7567+0.4373 X gender) 


可 以 看 出 ， 当 gender 从 “male” 变 为 “female” 时 ，odds 将 增 大 e0.4373=1.55 倍 。 实 际 上 gender 为 “female” 和 “male” 的 事件 发 生 的 发 生 比率 就 是 以 e 为 底数 ， 模 型 中 
gender 的 参数 估计 为 指数 的 昼 运 算 。 


发 生 比 、 发 生 比 率 和 模型 参数 估计 之 间 存 人 在下 面 的 关系 : 


odds — CADIU 十 pxX, + pxX, pa 


1 一 书 
一 e% x el” x EF x .XX EB 


. 当 Bl 为 正 数 时 ，e 将 大 于 1， 说 明 自 变量 每 增加 一 个 单位 值 时 ， 发 生 比 将 会 相应 的 增 大 et 倍 ， 增 加 一 个 单位 前 后 的 发 生 比 率 为 CF。 
当 也 为 负数 时 ，e “将 小 于 1， 说 明 自 变量 每 增加 一 个 单位 值 时 ， 发 生 比 将 会 相应 的 缩小 e“ 倍 ， 增 加 一 个 单位 前 后 的 发 生 比 率 为 6 。 
- 当 人 =0 时 ， ep=1， 说 明 无 论 自 变 量 怎么 变化 ， 发 生 比 率 都 不 会 发 生变 化 。 


对 于 逻辑 回归 及 其 模型 相关 的 更 多 理论 原理 本 书 不 作 深 入 介绍 ， 有 兴趣 的 读者 可 以 参阅 《深入 解析 SAs》 一 书 。 


6.5.2 SAS Visual Statistics 逻 辑 回 归 可 视 化 分 析 
逻辑 回归 可 以 分 析 一 个 分 类 型 因 变量 和 多 个 自 变 量 之 间 的 关系 。 逻 辑 回 归 只 能 有 一 个 分 类 变量 作为 因 变 量 ， 而 多 个 自 变 量 可 以 是 连续 型 的 、 分 类 型 的 或 者 交互 作用 类 型 的 因素 。 
1. 逻 辑 回 归 模 型 角色 


逻辑 回归 模型 角色 如 图 6-21 所 示 ， 相 应 的 说 明 如 下 。 


响应: 一 个 分 类 型 的 变量 
连续 效应 : 一 个 或 者 多 个 连续 性 变量 
: 分 类 效应 : 一 个 或 者 多 个 分 类 型 变量 


. 交互 效应 : 一 个 或 者 多 个 交互 因素 


. 分 组 依据 : 定义 不 同 的 模型 组 
2. 逻 辑 回归 模型 属性 


逻辑 回归 模型 的 属性 如 图 6-22 所 示 ， 相 应 的 说 明 如 下 。 
午 
除 角 色 x| 转 | 平 | 让 
理 量 
logistic 回归 
司 用 目 动 名 


泊 据 :区 : DDNATIDH DATh 
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We dorat1 or 和 


Et 





,| 信息 性 王 失 
| 恒 用 受 生 位 拌 


导 关 性 水 平 ， 





| | 绅 盖 国产 忆 疝 
但 : 0. p00001 
| | 窗 盖 梯 硫 路 训 ， 
但 : D0. p00001 
取 六 ] 夺 必 : 光 类 [ 
评 个 
| 恒 用 才 人 六 下 和 尝 头 
月” 店 -1007: 
而 各 禾 | 上 值 : 


癌 荐 : 0. p00001 


| 显示 诊断 图 


. 信息 性 缺失 : 要 求 缺 失 数据 经 过 特别 处 理 后 依然 在 模型 中 使 用 。 特 别处 理 包括 创 建 哑 变 量 ， 当 连续 型 的 变量 缺失 时 ， 哑 变量 的 值 为 1， 当 连续 型 的 变量 不 缺失 时 ， 哑 变量 的 值 为 
0。 对 于 连续 型 的 变量 ， 缺 失 值 用 平均 值 补 全 。 


` 使 用 变量 选择 : 决定 哪 一 个 因素 在 变量 选择 过 程 中 留 在 模型 当中 。 如 果 选 定 了 “使 用 变量 选择 ”， 那 么 就 需要 设 定 “ 显 著 性 水 平 ”“。 变 量 选择 通过 减少 自 变量 个 数 从 而 保留 最 重 
要 的 变量 。 


关联 函数 : 指定 在 模型 拟 合 过 程 中 所 使 用 的 关联 函数 。 


. 评估 : “使 用 默认 直 条 数 ” 指 定 了 在 评估 图 中 lift 计 算 中 所 使 用 的 bin 的 个 数 ， 该 值 默认 设 定 为 20， 用 户 可 以 输入 别 的 值 。 增 加 bin 的 个 数 可 以 增加 评估 的 准确 性 ， 代 价 是 计算 时 间 
增加 。“ 容 差 ”指定 了 决定 移 代 算法 收 化 的 值 。 设 定 一 个 更 小 的 值 可 以 提升 算法 的 精度 。 


. 显示 诊断 图 : 可 以 展示 残 差 图 ， 评 估 图 和 影响 图 。 


6.5.3 SAS Visual Statistics 逻 辑 回 归 模 型 举例 


选择 逻辑 回归 方法 ， 将 变量 donation 作 为 响应 变量 ， 并 且 将 “donated” 选择 为 事件 水 平 ， 同 时 将 如 图 6-23 所 示 的 变量 分 别 给 定 连 续 效 应 和 分 类 效应 的 角色 。 
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图 6-23 定义 变量 角色 
得 到 的 分 析 结 果 如 图 6-24 所 示 ， 因 为 自 变 量 存 在 缺失 的 情况 ， 因 此 未 使 用 的 观测 数据 有 247389 个 。 
在 属性 窗口 ， 勾 选 “信息 性 缺失 ”和 “使 用 变量 选择 ” ， 显 著 性 水 平 默认 设置 为 0.10。 模 型 结果 自动 刷新 ， 可 以 看 到 所 有 的 观测 都 应 用 在 了 模型 训练 当中 ， 如 图 6-25 所 示 。 


通过 逻辑 回归 ， 可 以 通过 不 同 的 评 佑 图形 更 好 地 理解 模型 的 预测 精度 。 在 评估 图 当中 ， 选 择 ROC 图 形 ( 见 图 6-26) 。ROC 图 能 够 很 好 地 展现 模型 避免 假 阴 和 假 阳 的 能 
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图 6-25 勾 选 “信息 性 缺失 ” “使 用 变量 选择 ”后 的 新 模型 结果 


` 假 阳 : 非 事件 被 误 判 为 事件 


` 假 阴 : 事件 被 误 判 为 非 事件 


` 灵敏 度 : 即 真 阳性 率 〈 真 阳 个 数 /所 有 真正 事件 的 个 数 ) 


. 1- 特异 度 : 即 假 阳 性 率 〈 假 阳 个 数 / 所 有 真正 非 事件 的 个 数 ) 


中 


因此 ROC 曲 线 能 够 反映 真 阳 性 率 和 假 阳性 率 变 化 的 情况 。ROC 曲 线 越 靠近 左上 角 ， 说 明 模 型 准确 性 越 高 。 同 样 在 ROC 图 当中 可 以 看 到 K-S 统 计量 。 


Tm 


在 评估 图 当中 ， 可 以 选择 “ 误 分 类 ”， 更 直观 地 展现 针对 响应 变量 ， 有 多 少 观测 是 被 正确 或 者 错误 的 分 类 ， 如 图 6-27 所 示 。 
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在 属性 窗口 中 ， 预 测 截 至 值 为 0.50， 可 以 修改 预测 截至 值 为 0.10， 
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图 6-26 ”ROC 曲线 
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图 6-27 误 分 类 评估 图 


“ 误 分 类 ”图 也 会 发 生 相应 的 改变 ， 如 图 6-28 所 示 。 
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图 6-28 ”修改 预测 截至 值 后 的 误 分 类 评估 图 


6.6 厂 义 线性 模型 


在 6.4 节 和 6.5 节 中 分 别 介绍 了 线性 回归 模型 和 逻辑 回归 模型 ， 下 面 介绍 广义 线性 模型 。 广 义 线性 模型 是 由 Nelder 和 Wedderburn 在 1972 年 提出 的 ， 该 模型 可 以 将 一 系列 看 似 不 相 
天 的 模型 统一 到 一 个 简洁 的 ， 一 致 的 模型 当中 。 可 以 说 ， 线 性 回归 模型 和 逻辑 回归 模型 都 是 广义 线性 模型 的 特殊 形式 。 


6.6.1 三 义 线性 异型 简介 


在 6.4.1 节 介绍 了 线性 回归 的 模型 : 
y=Bot+B1x1+B2x2+***+ BXk+e 
其 中 误差 项 e 是 应 该 符合 均值 为 0， 方 差 为 o2 的 正太 分布， 或 者 说 线性 回归 模型 还 可 以 表达 为 y~ N(h,a2)， 并 且 H= Bo+B1x1+B2x2+.…+Blxk， 可 以 明显 看 出 ， 线 性 回归 的 模型 只 能 
适用 于 因 变 量 是 连续 型 的 ， 符 合 正太 分布 ， 并 且 方 差 恒定 。 换 言 之 ， 将 线性 模型 推广 到 广义 线性 模型 要 求 线性 模型 的 以 下 三 个 假设 都 需要 进行 延伸 : 
` 因 变 量 是 符合 正 态 分 布 的 ， 其 均值 可 以 由 线性 模型 进行 建 模 。 
` 均值 可 以 表达 为 自 变量 的 一 系列 线性 函数 。 
` 因 变 量 的 方差 是 恒定 的 。 


在 一 般 线 性 模型 当中 ， 不 是 直接 对 因 变 量 的 均值 进行 建 模 ， 而 是 将 因 变 量 的 均值 进行 转换 ， 然 后 再 建 模 为 自 变量 的 一 系列 线性 函数 。 其 结果 就 是 广义 线性 模型 是 应 用 范围 很 广泛 的 
通用 的 模型 框架 ， 很 多 模型 (线性 回归 模型 ， 逻 辑 回归 模型 ) 都 是 广义 线性 模型 的 特殊 形式 。 广 义 线性 模型 可 以 表达 为 : 


g&E(CD)=Bo+B1xit 十 B2xiz 十 … 十 Bkxik 


其 中 g(E(yi)) 表 示 了 对 因 变 量 均值 的 转换 ， 我 们 称 之 为 天 联 函 数 (link function) 。 在 线性 回归 模型 中 ， 天 联 函 数 为 恒 等 函 数 (identity function) ， 而 在 逻辑 回归 模型 中 ， 关 联 函 
数 为 logit， 即 对 发 生 比 的 log 进 行 建 模 。 在 广义 线性 模型 中 ， 因 变量 的 分 布 是 要 属于 指数 分 布 家 族 的 成 员 ， 可 以 是 正 态 分 布 、 泪 松 分 布 、 二 项 式 分 布 、 指 数 分 布 和 伽 玛 分 布 等 模型 。 


6.6.2 SAS Visual Statistics 广 义 线性 模型 可 视 化 分 析 


1 广义 线性 模型 角色 
广义 线性 模型 的 角色 如 图 6-29 所 示 ， 相 应 的 说 明 如 下 。 
. 响应 : 相应 变量 


. 连续 效应 : 一 个 或 者 多 个 连续 型 变量 


` 分 类 效应 : 一 个 或 者 多 个 分 类 型 变量 

` 交互 效应 : 一 个 或 者 多 个 交互 项 
分 组 依据 : 定义 不 同 的 模型 组 

` 频数 : 一 个 变量 

. 偏 移 : 一 个 变量 


- 权重 : 一 个 变量 
2 广义 线性 模型 属性 


广义 线性 模型 的 属性 如 图 6-30 所 示 ， 相 应 的 说 明 如 下 。 
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图 6-30 ”广义 线性 模型 的 属性 
在 广义 线性 模型 属性 界面 可 以 指定 分 布 和 关联 函数 。 每 个 分 布 对 应 着 不 同 的 关联 国 数 ， 常 见 的 几 种 分 布 国 数 以 及 对 应 的 关联 国 数 见 表 6-3。 


表 6-3 常见 的 分 布 函 数 及 对 应 关联 函数 


Logit, Probit, Log-log, C-log-log 





Log, ldentity 





Log, ldentity 


` 信息 性 缺失 : 要 求 缺 失 数 据 经 过 特别 处 理 后 依然 在 模型 中 使 用 。 特 别处 理 包 括 创建 哑 变 量 ， 当 连续 型 的 变量 缺失 时 ， 哑 变量 的 值 为 1， 当 连续 型 的 变量 不 缺失 时 ， 哑 变量 的 值 为 
0。 对 于 连续 型 的 变量 ， 缺 失 值 用 平均 值 补 全 。 


收敛: 履 盖 函数 收敛 可 以 让 用 户 指定 函数 收敛 的 值 。 当 设 定 一 个 较 大 的 值 时 ， 模 型 收敛 的 速度 较 快 ， 这 样 模型 训练 的 时 间 会 减少 ， 但 是 也 可 能 生成 一 个 次 优 的 模型 。 履 盖 梯 度 收 
伊 可 以 让 用 户 指定 梯度 收敛 的 值 。 


最 大 和 迭代 次 数 : 默认 值 为 50， 如 果 指 定 一 个 较 小 的 值 ， 模 型 训练 的 时 间 会 缩短 ， 但 是 可 能 会 产生 一 个 次 优 的 模型 。 


6.6.3 SAS Visual Statistics 广 义 线性 模型 举例 


接着 上 面 的 线性 回归 模型 的 结果 ， 可 以 在 下 拉 列 表 中 选择 启动 “广义 线性 模型 ”。 广 义 线性 模型 当中 没有 “影响 图 ”， 分 析 结 果 如 图 6-31 所 示 。 
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图 6-31 广义 线性 模型 结果 


在 属性 表单 中 设 定 “ 分 布 ” 为 “Poisson”，“ 关 联 函数 ”为 “恒等式 ”， 模 型 自动 更 新 ， 可 以 看 到 AlC 的 值 有 下 降 ， 如 图 6-32 所 示 。 
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图 6-32 ”调整 属性 后 的 模型 结果 


选择 “模型 比较 ”， 选 择 donation_amount 作 为 响应 变量 ， 比 较 “ 线 性 回归 模型 ”和 “广义 线性 模型 ”。 无 论 依 据 是 ASE， 还 是 SSE， 线 性 回归 模型 的 表现 都 更 好 些 。 

































































数据 医 [*] 可视化 视图 4 后 X | 多 | 守 | 注 | 宇 | 轩 | 围 属性 > ?| 
DONATION_DATA | 了 | 二 donation_amount AIC 1,269, 442.38 使 用 的 观测 : 188, 174 未 使 用 : 554, 341 名 称 : | 可 视 化 视图 4 | 
旧 (局 总 尖 语 远 ) 
| 拟 合 汇总 品 残 差 图 日 四 信息 性 缺失 
了 二 类 别 (14) 所 二 
ES 所 
于 donation 2 变量 重要 性 
高 | 人 3m: [roisson 1" 
围 frequency_status... 4 5] 
用 Eender 3 in_ house*frequency_ status_9T7nk Es ED 100 关联 国 数 : 恒等式 | v 
| 
效 hon。 owner 2 1 ast_Ei ft_amt Oa 
in house 2 recency_status_96nlr OOOO a 收 伐 
博 incone_aroup 8 incone_ gr oup OO aa 过 pr [| 覆盖 函数 收 分 : 
则 Ne . gi | “ne i 
用 published phone 4 home_owner | 娄 _ = li 覆盖 梯度 收敛 : 
recency-stetus_o6nk 6 months_since_last_sift BEBE 值 0 000001 
二 stcluster sd 0 
国 SECluster_code 54 ee | 最 太 送 代 次 数 : so 和 扬 
用 wbaai Li fetime_prom Ob -100 
urbanicity 评估 
tne 和 car d_pr on_12 OE 低 a 
用 ，ianm 5 000+ lifetime_ gift_count = [Vi 使 用 默认 直 条 数 加 
$ age age : 预 则 秆 二 》 容 差 : 0.000001 
D card promn_12 overlay_sour ce 有 一 ? 
] 平 加 - 
D donation_amount hone_val ue OO 评估 “| Mi 显示 诊断 图 
$ File ave_ gift file_ave_gift En 
> File_card_gift lifetime ave_ eift_amt 二 == 
home_val: | 
A a A file_card_eift 国有 有 
Ouse_income 
? ast SE months_since_first_gift 天国 四 .30 
ast_eift_am 和 
Ka lifetime_ ave_eift_amt snder WD AN 
$ lifetime_ eift_amount lifetime_ gift_range a 
$$ lifetime gift_count lifatine mer gift -ant 的 20 
] 
Ed lifetime_gift range 可 
属性 值 10 
名 称 
类 | 
分 类 | me 0 20 40 60 80 100 
刑 类 型 
模型 类 型 0.1 0.01 0.001 0.0001 人.00001 百 分 位 数 
格式 ? 值 预 出 平均 值 一 一 一 ' 观测 平均 值 
案 合 [| 自动 更 新 更 新 
ms . 
inantmn + x| nlmtenm x| mtn x) i 


图 6-33 ”模型 比较 


6.7 ”决策 树 

在 6.6 节 ， 我 们 介绍 了 广义 线性 模型 。 在 本 节 ， 我 们 介绍 一 个 可 以 用 来 分 析 连 续 型 和 分 类 型 因 变 量 的 非 线 性 的 模型 : 决策 树 。 决 策 树 在 建立 预测 模型 时 之 所 以 受到 欢迎 是 因为 它 非 
常 直观 ， 可 解释 性 强 ， 同 时 决策 树 的 建 模 过 程 能 较 好 地 处 理 缺 失 值 的 问题 。 除 了 用 来 建立 预测 模型 ， 决 策 树 也 是 一 种 有 效 的 变量 筛选 方法 ， 比 如 说 在 进入 广义 线性 模型 之 前 ， 可 以 先 利 
用 决策 树 进 行 变 量 筛 选 。 


6.7.1 决策 树 模 型 简介 

决策 树 模型 的 得 名 是 因为 预测 模型 以 类 似 树 形 的 结构 展现 。 当 因 变 量 是 分 类 型 变量 的 时 候 ， 
为 回归 树 。 以 分 类 树 为 例 ， 决 策 树 通过 一 个 从 “ 根 节点 ”到 “ 叶 节 点 ”的 树 形 结构 来 进行 分 类 。 
支 。” (branch) 和 “ 叶 节 点 ” (leaf node)， 每 一 个 “ 非 叶子 节点 ”代表 了 某 个 数据 的 属性 ， 


个 \。 


决策 树 模型 也 可 以 称 为 分 类 树 。 当 因 变 量 是 连续 型 变量 的 时 候 ， 决 策 树 模型 也 可 以 被 称 
决策 树 有 “ 根 节点 ” “ 非 叶子 节点 ” 
每 个 “分 支 ” 代 表 了 测试 的 结果 ， 每 一 个 “ 叶 节 点 ”会 得 到 一 个 分 类 标记 ， 如 图 6-34 所 


(root node) 、 (non-leaf node) 、 “分 


根 万 操 


韭 叶 子 太 所 


分 文 





叶子 万 扩 


图 6-35 是 一 个 决策 树 的 例子 ， 该 决策 树 是 通过 一 系列 变量 诸如 : 年 龄 、 是 否 学 生 、 信 用 等 级 好 坏 来 预测 一 个 人 是 否 会 购买 某 件 商品 。 该 决策 树 最 项 端的 节点 是 “ 根 节点 ”， 其 余 
的 两 个 矩形 节点 是 “ 非 叶 子 节 点 ”， 所 有 的 5 个 椭圆 形 的 节点 是 “叶子 节点 ”。 比 如 ， 和 矩形 节点 “学 生 ?” ”就 是 一 个 对 是 否 为 学 生 的 变量 进行 判断 ， 如 果 是 学 生 ， 进 入 一 个 分 支 ， 如果 
不 是 学 生 ， 那 么 进入 另外 一 个 分 支 。 每 个 “叶子 节点 ”代表 了 符合 某 些 条 件 的 人 群 是 否 购买 某 件 商品 。 下 面 的 决策 树 可 以 得 到 的 判断 一 个 人 是 否 会 购买 商品 的 规则 如 下 : 





< 30 > 50 


30&|= 50 





图 6-35 ”分 类 树 的 例子 


. 如 果 年 龄 <30 并 且 是 学 生 ， 那 么 会 购买 商品 


` 如 果 年 龄 <30 并 且 不 是 学 生 ， 那 么 不 会 购买 商品 


" 如 果 年 龄 二 30 并 且 年 龄 <50， 那 么 会 购买 商品 


" 如 果 年 龄 50 并 且 信 用 等 级 为 好 ， 那 么 会 购买 商品 


果 年 龄 二 50 并 且 信 用 等 级 一 般 ， 那 么 不 会 购买 商品 


决策 树 之 所 以 受到 普遍 


理 缺 失 数 据 。 
分 析 等 


在 构建 决策 树 的 过 程 中 ， 


决策 树 的 另外 一 个 优势 是 直观 ， 
领域 得 到 了 广泛 的 应 用 。 


容易 被 人 们 所 理解 。 一 般 来 说 ， 


需要 考虑 的 核心 问题 是 如 何 选 择 变量 对 数据 进行 不 断 地 分 类 


策 树 中 进行 变量 选择 的 方法 。 


. 信息 增益 (Infotmation gain) 


. 信息 增益 率 (Gain ratio) 


基尼 指数 


在 决策 树 生成 过 程 中 ， 许 多 


更 高 ， 


` 预 修剪 


预 修剪 是 


决策 树 的 算法 也 有 许多 种 ， 表 6-4 中 是 


在 决策 树 生 成 的 早期 阶段 ， 停 止 树 的 增长 。 后 修 蔓 是 


(Gini index) 


(Pre Pruning) 


(Post Pruning) 


在 已 经 过 拟 合 的 决策 树 上 进行 修 盘 


最 常见 的 决策 树 的 算法 以 及 每 种 算法 的 特点 。 


另外 ， 为 了 防止 过 拟 合 ， 


分 支 肥 映 的 是 训练 数据 当中 的 噪音 或 者 离 群 值 ， 为 了 防止 这 种 过 拟 合 ， 
我 们 称 之 为 决策 树 修剪 。 决 策 树 的 修剪 可 以 有 下 面 两 种 方法 。 


， 通 过 验证 数据 来 决定 哪 一 个 


表 6-4 最 常见 的 决策 树 的 算法 以 及 每 种 算法 的 特点 


运行 速度 慢 

修剪 

缺失 值 处 理 二 

变量 选择 言 息 增益 信息 增益 率 





在 SAS Visual Statistics 当 中 所 使 用 的 决策 树 是 基于 C4.5 算 法 的 增强 版 本 。 


6.7.2 SAS Visual Statistics 决 策 树 可 视 化 分 析 


1. 决 策 树 角 色 


决策 树 的 角色 如 图 6-36 所 示 ， 相 应 的 说 明 如 下 。 


的 欢迎 是 因为 决策 树 的 生成 不 需要 行业 知识 以 及 特定 的 参数 设置 ， 因 此 决策 树 对 于 探索 性 的 知识 发 现 是 非常 适合 的 。 
决策 树 的 生成 是 比较 快速 的 ， 而 且 具 有 比较 好 的 准确 性 。 


i 
是 修 部 


决策 树 模 型 已 


最 恰当 的 树 。 


ED: 





有 必要 移 除 一 些 分 支 从 而 使 得 生成 的 决策 树 模 型 在 对 未 知 数 据 进 


文 持 
基尼 指数 


决策 树 可 以 处 理 多 维 的 数据 ， 也 擅长 处 
经 在 诸如 医药 行业 ， 制 造 业 ， 金 融 


什么 时 候 停 止 继续 生成 决策 树 就 非常 天 键 了 。 下 面 是 三 种 常用 的 决 


分 类 时 准确 性 





{和 4， 决 策 树 
使 用 自动 图 


浊 r 所 : 蒜 : DDNATIOH DATA 





人 襄 级 





贡 钢 由 用 





2. 决 策 树 属性 
决策 树 的 属性 如 图 6-37 所 示 ， 相 应 的 说 明 如 下 。 


区 | 于 
名 称 : | 可视化 视图 1 














数目 后 -100]): |20 = 


i 和 截止 值 


癌 荐 : 0D. p00001 


| | 显示 位 断 息 


图 6-37 决策 树 的 属性 


“ 包括 缺失 值 : 包含 缺失 值 的 观测 也 会 应 用 在 建 模 当中 。 对 于 分 类 型 的 变量 ， 缺 失 值 自己 成 为 一 个 水 平 。 对 于 连续 型 的 变量 ， 缺 失 值 被 认为 是 负 无 穷 。 


` 频数 : 指定 节点 显示 所 包含 的 观测 数 或 者 百分比 
` 生长 策略 : 指定 了 用 来 生成 决策 树 的 参数 ， 生 长 策略 有 “基本 ， 高 级 ， “ 建 模 ， “ 自 定义 。 这 几 种 生长 策略 的 比较 见 表 6-5。 


表 6-5 ” 几 种 生长 策略 的 比较 


ss /默认 属性 | 大 本 | 高 级 | 建 模 
合 缺 失 人 vv | YY | vv 


上 大 人 
RA | ee To 


上 大小 





修 喜 i 较 严 格 - 


6.7.3 SAS Visual Statistics 决 策 树 模型 举例 


选择 决策 树 方法 ， 将 变量 donation 作 为 响应 变量 ， 并 且 将 donated 选 择 为 事件 水 平 。 将 下 面 的 变量 作为 预测 变量 ， 如 图 6-38 所 示 。 


自 定 义 〈 默 认 ) 


NA 
比较 严格 
所 天 


requeney _status_97nk 


Eg Pep 叉 证 
receney _status_ 96n0k 





图 6-38 ”预测 变量 


可 以 看 到 决策 树 的 初步 结果 。 其 中 树 形 图 和 冰 柱 图 是 一 一 对 应 的 。 点 击 树 形 图 的 任 一 节点 都 会 使 得 冰 柱 图 的 对 应 数据 发 生 联 动 。 树 形 图 和 冰 柱 图 的 颜色 代表 了 该 节点 的 预测 水 平 ， 
表征 在 该 节点 哪 一 个 事件 的 观测 数 拥有 更 多 数量 ， 如 图 6-39 所 示 。 


donation《 事 件 -Donated) 使 用 的 观测 : 1 000, 000 


树 形 


吗 国 


[ns 加 四 GE 二 时 二 ET 
ml “本 





图 6-39 ”决策 树 结果 ( 附 彩 图 ) 


属性 窗口 显示 决策 树 的 初始 设置 ， 可 以 看 到 模型 的 生长 策略 。 其 中 “包含 缺失 值 ” 和 “重用 预测 值 ”是 默认 勾 选 的 。 “修剪 ”默认 设置 为 “比较 严格 ”， 如 图 6-40 所 示 。 


了 | 








王 量 





名 种 :| 可 视 化 视图 2 
| 已 挡 束 兴 值 


频数 
生长 第 略 : ”| 自 定义 和 
最 大 分 去 数 2 让 
最 大 名 别 数 二 
四 
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叶 志 小 10 


啊 应 相 10 = 


祷 测 值 直 条 数 20 上 秘 

| 快速 成 长 

BE 
.= 


可 重用 所 出 值 
| 评估 
可 使 用 默认 直 条 数 


未 [ 目 [5-100): |an 一 


本 


预 秽 截止 值 
类 


时 


| | 显示 诊断 图 


将 “ 叶 大 小 ” 改 为 100， 选 择 “ 显 示 诊 断 图 ”。 在 “ 叶 统 计量 ”中 ， 看 到 有 15 个 叶 节 点 。 决 策 树 的 第 一 个 分 支 所 使 用 的 变量 为 frequency _status 97nk。frequency status 97nk 
值 为 1 或 者 2 的 数据 进入 了 决策 树 的 右 侧 ， 然 后 根据 变量 pep_star 的 值 继续 分 开 。frequency status 97nk 值 为 3 或 者 4 的 数据 进入 了 决策 树 的 左 侧 ， 然 后 根据 变量 card_prom_12 的 值 继 
续 分 开 ， 结 果 如 图 6-41 所 示 。 
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图 6-41 决策 树 结果 显示 


在 属性 窗口 中 ,将 “频数” 改 为 “百分比 ”，“ 叶 统计 量 ” 的 图 形 会 相应 的 更 新 ， 可 以 看 到 节点 26 和 节点 27 的 纯度 最 高 ， 如 图 6-42 所 示 
叶 综 计量 加 | 


100. 00% 





图 6-42 ”决策 树叶 统计 量 图 


同样 在 图 6-43 当 中 ， 可 以 看 到 ROC 图 以 及 对 应 的 K-S 统 计量 。 


评 居 口 


0.8 


0.6 


如 侈 录 






0. 
h 最 大仙 隔 [ 瑟 统 计量 1 :0 1482 | 
0.2 
0.0 -| 
0.0 0 2 0 0.6 0.9 1.0 


1 - 特异 谎 
图 6-43 ”决策 树 评估 图 
在 图 6-44 中 ， 通 过 显示 详细 信息 表 ， 选 择 “节点 规则 ” 。 选 择 纯度 最 高 的 节点 26， 可 以 得 到 这 样 的 规则 ， 满 足下 面 的 条 件 的 观测 进行 捐赠 的 可 能 性 达到 了 100%。 
. File_card_gift<2.05 
. Months_since_first_gift<27.35 
* Months_since_last_gift>=12.75 


* Frequency_status_97nk=1 of 2 


* Pep_stat=1 
节点 统计 里 | 节点 规则 | 
节点 ID 各 “eB ID| 类 型 file card zift months sinece. months since. fregquencw st. Pep _ star 
24 16 叶 < 19| 3, 4 
25 13 叶 “= 2. 05 < 2T. 35 “= 12.75 






27 19 叶 3 .2 < 12.75 
28 19 叶 < 8 2 ei 国 国 2 1 


图 6-44 节点 规则 


6.8 


类 


聚 类 技术 经 常 应 用 在 没有 目标 变量 需要 预测 ， 但 是 希望 能 够 将 观测 进行 分 组 的 情况 下 。 比 如 ， 在 某 电信 公司 希望 了 解 其 手机 用 户 的 特征 ， 例 如 是 否 打 国际 长 途 、 是 否 经 常 进行 国内 
长 途 通话 、 每 次 通话 时 间 长 度 等 。 在 研究 这 些 特 征 后 ， 我 们 可 以 将 手机 用 户 分 成 若干 组 ， 但 是 分 成 这 些 组 是 否 合理 、 是 否 存 在 更 好 的 分 类 方法 这 就 是 聚 类 要 解决 的 问题 


聚 类 分 析 就 是 将 观测 划分 为 多 个 类 别 ， 每 个 类 别 内 的 观测 在 某 些 指标 上 是 类 似 的 ， 而 不 同类 别 间 的 观测 差异 是 比较 大 的 。 常 见 的 聚 类 分 析 有 层次 法 和 划分 法 ， 划 分 法 适用 于 观测 数 
比较 多 的 情形 。SAS Visual Statistics 中 所 使 用 的 聚 类 方法 为 划分 法 ， 即 开始 阶段 指定 某 几 个 类 中 心 ， 接 下 来 通过 计算 将 每 个 观测 暂时 归 到 距离 其 最 近 的 类 中 心 所 在 的 类 ， 不 断 调整 类 
中 心 直 至 收敛 。 


具体 来 说 SAS Visual statistics 中 所 使 用 的 聚 类 方法 为 K-means 方 法 ， 该 方法 的 一 个 最 重要 的 特点 是 算法 收敛 的 时 间 和 等 分 析 数 据 的 观测 数 成 正比 ， 因 此 该 方法 可 以 用 来 处 理 规 模 
较 大 的 数据 。 


K 均 值 聚 类 方法 的 大 体 步 骤 如 下 : 

1) 选 定 K 个 观测 作为 K 类 的 种 子 (Cluster Seed) 。 

2) 读 入 所 有 观测 ， 计 算 每 个 观测 与 K 个 种 子 间 的 距离 ， 将 观测 暂时 归 类 到 与 其 距离 最 近 的 种 子 所 在 的 类 中 。 
3) 根据 现 有 类 中 的 观测 ， 重 新 计算 类 的 中 心 ， 即 种 子 。 

4) 重复 2 ~ 3 步 ， 直 至 收敛 。 至 此 ， 所 有 K 类 的 种 子 最 终 确定 。 


5) 再 次 读 入 所 有 观测 ， 将 每 个 观测 归 类 到 与 其 距离 最 近 的 种 子 所 在 的 类 ， 分 类 结束 。 


6.8.2 SAS Visual Statistics 聚 类 可 视 化 分 析 


聚 类 模型 的 角色 如 图 6-45 所 示 ， 其 中 的 变量 是 指 一 个 或 者 多 个 聚 类 变量 。 
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图 6-45 ”和 聚 类 模型 角色 


聚 类 模型 的 属性 如 图 6-46 所 示 ， 相 应 的 说 明 如 下 。 





相关 : 
最 去 折 昧 邹 : 
可 视角 名: 


3UUU 二 - 
5 访 
Ea 


聚 类 数 : 指定 生成 聚 类 的 数量 。 


` 种 子 : 指定 在 初始 聚 类 时 所 使 用 的 随机 数 生 成 器 的 种 子 值 。 
初始 分 配 : 指定 初始 聚 类 时 所 使 用 的 方法 。 可 用 的 方法 有 Forgy 方 法 ， 
` 可 视角 色 : 指定 在 聚 类 矩阵 当中 显示 的 变量 的 个 数 。 
` 变量 标准 化 : 会 对 聚 类 变量 
箱 数 : 指定 生成 平行 坐标 折线 图 时 所 使 用 的 箱 数 。 
最 大 折线 数 : 指定 平行 坐标 算法 所 生成 的 折线 的 最 大 数量 。 


. 可 视角 色 : 指定 在 平行 坐标 折线 图 中 显示 的 变量 的 个 数 。 


6.8.3 SAS Visual Statistics 聚 类 分 析 举 例 


图 6-46 ” 聚 类 模型 属性 


随机 方法 。Forgy 方 法 随机 选择 KK 个 数据 点 作为 K 个 聚 类 的 质心 。 


进行 标准 化 ， 生 成 均值 为 0， 标 准 差 为 1 的 变量 


六 | 喇 | 回 | 围 属 性 四 * 


随机 方法 随机 的 将 数据 点 分 配 到 不 同 的 类 。 


Ls 


聚 类 例子 所 使 用 的 数据 集 是 一 个 叫 作 “CARS” 的 数据 集 ， 该 数据 集 有 428 个 观测 值 和 9 个 变量 ， 每 一 个 观测 都 代表 了 某 一 种 品牌 的 车 所 属 的 汽车 制造 商 、 型 号 、 类 别 、 产 地 、 驱 动 


方式 、 马 力 、 引 警 、 重 量 、 油 耗 等 数据 。 其 中 包括 5 个 字符 型 变量 和 4 个 数值 型 变量 。 表 6-6 描 述 了 聚 类 分 析 中 用 到 的 4 个 数值 型 变量 的 含义 。 


表 6-6 聚 类 分 析 中 4 个 数值 型 变量 的 含义 
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图 6-47 定义 变量 角色 
选 定 聚 类 模型 ， 将 四 个 数值 型 变量 加 入 到 聚 类 变量 中 。 


将 默认 的 聚 类 数 改 为 4， 可 以 得 到 初步 的 聚 类 结果 。 每 个 类 都 有 不 同 的 颜色 。 在 “平行 坐标 ”图 当中 ， 总 共有 240 条 线 ， 因 为 在 所 有 的 观测 当中 ， 进 行 聚 类 的 4 个 变量 的 值 的 组 合 有 
240 个 ， 如 图 6-48 所 示 。 


在 “ 聚 类 矩阵 ”图 形 中 ， 选 定 图 形 Engine Size (L) /MPG (Highway) ， 可 以 选择 可 以 展现 的 图 形 ， 如 图 6-49 所 示 。 


按照 聚 类 ID 绘制 Engine Size (L) 和 按照 聚 类 1D 绘 制 MPG (Highway) 分 别 可 以 得 到 相对 应 的 盒 型 图 。 每 个 聚 类 的 特征 都 可 以 直观 地 展现 在 盒 型 图 当中 ， 比 如 类 别 2， 在 Engine 
Size (L) 维度 值 最 大 ， 而 在 MPG (Highway) 维度 值 最 小 ， 如 图 6-50 所 示 。 
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图 6-48 初步 聚 类 结果 ( 附 彩 图 ) 


在 平行 坐标 图 当中 也 可 以 很 直观 地 看 到 每 个 聚 类 的 特征 。 其 中 聚 类 ID 中 不 同 的 颜色 代表 了 不 同 的 类 别 ， 图 形 的 大 小 代表 了 所 在 类 别 的 观测 的 数目 。 可 以 看 到 类 别 2 的 观测 数目 最 
少 ， 并 且 在 Engine Size (L) 、Horsepower、Weight 三 个 维度 值 较 大 ， 而 在 MPG (Highway) 维度 值 最 小 ， 如 图 6-51 所 示 。 
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图 6-49 ”有 聚 类 结果 
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图 6-50 聚 类 1D 的 金 型 图 
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图 6-51 平行 坐标 图 


查看 “显示 详细 信息 ”， 可 以 看 到 有 关 每 个 聚 类 的 各 类 指标 ， 如 图 6-52 所 示 。 


束 闪 ID 观测 STD HY FMS 床 准 内 335 质心 至 观测 的 . .， 质心 圣 观 测 和 ... li 
0 30 0. 5451B1 33.91548 0. 138997 5. 537992 3 
1 129 0. 499351 127. BES 0. 24934 1. B28T787 3 
2 BB 0. 813102 171. 8949 0. 495186 4. 2246 1 
3 153 0. 391729 93. 29841 0. 192529 1.5848 1 


图 6-52” 聚 类 汇总 


6.9 ”模型 比较 和 模型 评分 


6.9.1 模型 比较 
SAS Visual statistics 提 供 了 模型 比较 的 功能 。 使 用 此 功能 可 以 根据 不 同 的 评判 标准 去 比较 每 个 模型 的 表现 。 根 据 模 型 种 类 和 因 变 量 类 型 (连续 型 或 者 分 类 型 ) ， 模 型 的 评判 标准 


各 有 不 同 。 需 要 注意 的 是 ， 模 型 比较 的 结果 不 能 保 仓 ， 如 果 在 模型 比较 之 后 ， 其 中 的 某 一 个 模型 友 生 了 改变 ， 需 要 重新 比较 模型 。 对 于 希望 进入 模型 比较 的 模型 ， 需 要 勾 选 “显示 诊断 
|" 


6.9 ”模型 比较 和 模型 评分 


6.9.1 模型 比较 
SAS Visual statistics 提 供 了 模型 比较 的 功能 。 使 用 此 功能 可 以 根据 不 同 的 评判 标准 去 比较 每 个 模型 的 表现 。 根 据 模 型 种 类 和 因 变 量 类 型 (连续 型 或 者 分 类 型 ) ， 模 型 的 评判 标准 


各 有 不 同 。 需 要 注意 的 是 ， 模 型 比较 的 结果 不 能 保存 ， 如 果 在 模型 比较 之 后 ， 其 中 的 某 一 个 模型 上 友 生 了 改变 ， 需 要 重新 比较 模型 。 对 于 希望 进入 模型 比较 的 模型 ， 需 要 勾 选 “显示 诊断 
到 


6.9.2 ”模型 比较 可 视 化 界面 


模型 比较 界面 如 图 6-53 所 示 。 


蛋 型 比较 a 


水 [所 : 旧 : DONATION DATA, | 下 
响应 : 
水 平 


所 组 依据 : (无 ) 


可 用 模型 计 定 模型 





模型 比较 - 娟 过 区 本 标准 比较 决 军 树 、 续 性 回归 、Lo#istic 回归 和 三 关 续 性 模型 。 


确定 || 取消 | 
图 6-53 ”模型 比较 界面 


只 有 响应 变量 、 水 平 相同 的 多 个 模型 才 可 以 进行 比较 。 如 果 比 较 的 多 个 模型 所 使 用 的 观测 数目 不 同 ， 在 模型 比较 窗口 会 有 提示 信息 。SAS Visual Statistics 并 没有 强制 要 求 参 与 比 
较 的 模型 所 使 用 的 观测 数目 一 致 ， 只 是 从 统计 的 角度 ， 参 与 比较 的 模型 都 应 该 有 相同 数目 的 观测 。 


模型 比较 属性 界面 会 因为 变量 是 连续 型 还 是 分 类 型 而 显示 不 同 的 界面 。 图 6-54 展 现 的 是 分 类 型 因 变 量 的 模型 比较 属性 界面 。 
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图 6-54 分 类 型 因 变 量 模型 比较 属性 界面 


拟 合 统计 量 定义 了 模型 比较 以 及 用 来 决定 冠军 模型 的 标准 。 不 同 的 模型 比较 有 不 同 的 模型 统计 量 。 预 测 临 界 值 决定 了 一 个 观测 被 判定 为 “事件 ”或 者 “ 非 事 件 ” 的 国 值 ， 默 认 值 为 
0.50。 当 因 变 量 为 分 类 型 变量 并 且 选 择 了 “ 误 分 类 ” “FDR”“FPR” 或 者 “F1 评 分 ”等 拟 合 统计 量 时 ， 预 测 临 界 值 会 起 作用 。 


“ 百 分 位 数 ” 决 定 了 拟 合 统计 量 在 哪些 分 位 数 会 作 图 。 当 因 变 量 是 分 类 型 变量 ， 并 且 选 择 了 “提升 度 ”“ 昧 积 提升 度 ” “累积 事件 百分比 ”，“ 际 积 捕获 百分比 ” “增益 ”等 拟 合 
统计 量 时 ，“ 百 分 位 数 ” 会 起 作用 。 


有 两 个 结果 界面 可 以 用 来 展现 模型 比较 的 结果 : 
. 评估 
" 拟 合 统计 量 


在 评估 界面 ， 当 因 变 量 为 分 类 型 变量 的 时 候 ， 可 以 展现 “提升 度 ” “ROC”“ 误 分 类 ”等 指标 。 当 因 变 量 为 连续 型 变量 的 时 候 ， 可 以 展现 “观测 值 ”“ 预 测 值 ”等 指标 ， 如 图 6- 


25 所 泵 。 
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图 6-55 ”评估 界面 
如 图 6-56 所 示 ， 在 模型 比较 结果 的 详细 信息 页 面 ， 可 以 展现 “统计 量 ” 和 “变量 重要 性 ”。 “统计 量 ” 页 面 为 每 一 个 参与 模型 比较 的 模型 提供 了 汇总 统计 量 ，“ 选 定 ” 的 
值 “是 ”与 “ 否 ”指定 了 基于 模型 的 选择 标准 ， 最 终 的 冠军 模型 是 哪个 。 
如 图 6-57 所 示 ， “变量 重要 性 ”页 面 指定 了 每 个 变量 在 模型 当中 的 重要 程度 。 表 格 当 中 列 出 了 变量 名 称 ， 变 量 重 要 性 排序 以 及 变量 所 对 应 的 P 值 ，P 值 小 于 显著 性 水 平 的 变量 被 视 
为 重要 变量 。 


统计 量 ”| 变 里 重要 性 nn 


选 定 模型 可 视 化 视图 类 型 ”观测 数 误 分 类 C 统计 量 Ss 统计 量 FFR FIR Fl 评分 提升 度 累积 提升 度 “累积 事件 百分比 
是 决策 树 决策 树 1000000 0.246 0.596 0.148 0.019 0. 436 0.131 1.9509 1.9509 48.778 
本 还 辑 回 鼎 logistic 回归 | 1000000 0.252 0.B1B 0.173 0.003 0. 494 0.016 1. 8025 1. 8025 45.513 








图 6-56 ”模拟 比较 结果 


统计 时 中 变量 重要 性 
“决策 树 ” 排名 | “还 辑 回 日 "排名 和 | “决策 树 ”重要 性 “ 遇 辑 回归 ”重要 性 




















tregquencw status dTrnk 1 “<D. O00D1 
months since irst elitt 10 <D. O00D1 
lifetime max el1ft amt 11 <D. O00D1 
last eift amt le <“D. O00D1 
Jifetime elift ranee 13 <D. O00D1 
lifetime prom 14 “D0. O0001 


图 6-57 变量 重要 性 列表 


6.9.3 ”模型 评分 
评分 是 将 模型 应 用 到 新 数据 进行 预测 的 一 个 过 程 ，SAS Visual Statistics 能 够 将 模型 的 评分 代码 导出 ， 结 合 其 他 的 SAS 产 品 ， 最 终 可 以 将 模型 应 用 在 生产 环境 中 。 评 分 代码 会 包含 
SAS/Base 的 代码 以 及 一 系列 的 布尔 逻辑 。 用 户 可 以 将 模型 评分 代码 随意 导出 ， 无 须 进行 模型 比较 ， 导 出 的 评分 代码 可 以 保存 成 为 .sas 的 文件 。 


评分 代码 可 以 被 导出 为 SAAS 数 据 步 的 代码 ， 从 而 可 以 在 任意 的 SAS 环 境 当中 执行 。 在 模型 当中 所 使 用 的 所 有 变量 : 交互 作用 变量 、 分 组 变量 、 频 数 变量 以 及 权重 变量 都 会 在 导出 的 
SAS 评 分 代码 中 。 评 分 代码 同样 还 可 以 导出 为 C、Java 或 者 PMML 人 代码， 图 6-58 为 评分 代码 导出 界面 。 


评分 的 流程 可 以 分 为 下 面 4 个 步 又: 


1) 决定 将 哪个 模型 的 评分 代码 导出 (一 般 来 说 ,会 导出 根据 模型 比较 而 选择 的 冠军 模型 ) ， 
2) 进入 冠军 模型 页 面 ， 选 择 “ 导 出 评分 模型 ”，; 

3) 评分 模型 代码 会 在 窗口 弹出 ， 选 择 “ 导 出 ”， 

4) 将 评分 模型 代码 保存 为 .sas 文 件 。 


得 到 评分 代码 后 ， 就 可 以 将 评分 代码 部 署 到 实际 的 相关 系统 中 ， 对 新 数据 进行 评分 。 这 里 不 再 详 述 。 


是 否 要 号 出 该 模型 的 评分 代码 了 
| Eee | options VALIDMEMNANE =EXTEND VALIDYARNAME=ANY; 
:本 加 和 | 隔 /s 方 用 户 ID: sasdemo 证 广 十 方 / 
者 击 吉 击 挤 弄 [和 和。 对 辐 击 半 击 击 上 
吓 阶 1 模型 名 称 ; 逻辑 回归 


SAS Code Generated by LASR hnalytic Server 
重音 因 .. . Date : 08Jan2017:21:31:52 
Locale : en Us 
评 声 Model Type : Loyistic Reyression 
Class variable : Ereduency atatus 97nk 
定制 | Class variable : tender 


Llass variable : home owner 
Class variable : in house 

出 障 . i Class variable : income group 
Class variable : Overlay 80uUrce 


司 中 图 保 Llass variable : va 800 pep star 
天 十 "a "4 Sy 人 
Class variable : LeECENCY Status 96nk 


导出 评分 代码 ee 
:民生 台面 各 川 直 . | Link Function - i 
显示 许久 息 


可 视 化 视图 类 型 





图 6-58 ”导出 评分 代码 


6.10 ”本 章 小 结 


本 章 介 绍 了 线性 回归 模型 、 广 义 线性 模型 、 罗 辑 回 归 模 型 、 决 策 树 以 及 聚 类 模型 ， 并 且 通 过 举例 描述 了 如 何 通 过 SAS Visual Statistics 实 现 探索 性 数据 分 析 、 线 性 回归 模型 、 广 义 
线性 模型 、 逻 辑 回归 模型 、 决 策 树 以 及 聚 类 模型 ， 最 后 描述 了 如 何 通 过 SAS Visual Statistics 实 现 模 型 比较 和 模型 评分 。 


第 7 草 ”可视化 调 僵 


加 | 


内 部 威胁 是 来 自 内 部 的 对 组 织 利益 或 正常 运营 有 影响 的 潜在 风险 。 内 部 威胁 可 以 是 将 公司 机 密 泄露 给 竞争 对 手 ， 也 可 以 是 将 恶意 软件 引入 计算 机 系统 和 网 络 等 。 它 们 对 组 织 的 正常 
运作 形成 损害 ， 在 极端 情况 下 ， 可 以 危害 到 人 们 的 生命 和 影响 到 国家 的 安全 。 


金融 欺诈 是 指 采 用 虚构 或 隐瞒 事实 的 方法 ， 骗 取 公 私 财物 或 者 金融 机 构 信用 ， 破 坏 金融 秩序 的 行为 。 洗 钱 行为 是 指 通 过 合法 的 活动 将 违法 获得 的 收入 隐藏 、 伪 装 或 投资 的 过 程 。 当 
前 全 球 金融 欺诈 和 洗钱 犯罪 形势 严峻 ， 需 要 加 大 力度 防范 和 打击 这 些 犯罪 行为 。 


传统 上 ， 应 对 内 部 威胁 和 金融 犯罪 往往 利用 监控 软件 通过 侦 测 模型 生成 警报 ， 并 交 给 警报 调查 人 员 进 行 手工 处 理 。 虽 然 这 些 软件 将 部 分 流程 进行 了 自动 化 ， 但 是 调查 人 员 仍 然 需 要 
从 纷繁 复杂 的 交易 数据 、 日 志 或 邮件 中 找 出 线索 ， 并 且 需 要 翻阅 大 量 文 档 记录 追 寻 起 因 ， 理 清 各 相关 实体 之 间 的 联系 。 





SAS 可 视 化 调查 (SAS Visual Investigator) 是 SAS 在 最 新 推出 的 高 性 能 和 可 视 化 架构 一 一 SAS Viya 云 平台 上 产生 的 第 一 个 全 新 的 解决 方案 。 它 提供 了 图 形 化 和 交互 式 的 智能 管理 
和 调查 功能 。 请 注意 ， 本 书 所 介绍 的 其 他 SAS 可 视 化 分 析 产 品 均 基于 SAS 9 平台 的 LAsR 分 析 服 务 器 ， 唯 独 本 章 介绍 的 SAs Visual Investigator 是 基于 SAS 的 最 新 分 析 平 台 SAS Viya 的 。 


SAS Visual Investigator 可 使 分 析 和 调查 人 员 减 少 误 报 、 简 化 调查 过 程 、 打 击 欺 诈 行为 ， 并 改善 客户 细 分 。 它 可 以 将 不 同类 型 、 大 小 、 位 置 的 数据 集中 起 来 ， 实 现 数据 搜索 、 查 
询 ， 并 将 实体 间 关 系 进行 网 络 可 视 化 ， 它 还 支持 地 图 展示 。 


7.1 SAS Visual Investigator 介 绍 


通过 使 用 SAS Visual Investigator， 可 以 让 用 户 在 友好 的 视图 中 聚合 数据 ， 并 在 数据 中 显示 模式 和 趋势 。SAs Visual Scenario Designer (SAS 提 供 的 男 一 可 视 化 产品 ) 可 以 让 调 
设 


查 员 设计 特定 的 业务 规则 ， 并 将 统计 模型 应 用 于 内 部 威胁 相关 的 数据 源 上 ， 与 每 一 数据 和 风险 行为 基准 进行 比较 ， 并 生成 风险 评分 。 输 出 的 风险 评分 和 生成 分 数 的 相关 数据 将 引导 调查 
人 员 进 行进 一 步 的 探索 。 


SAS Visual Investigator 增 加 了 通过 个 人 手动 审查 相关 数据 源 无 法 实现 的 功能 ， 情 绪 和 语 境 分 析 便 是 其 中 的 两 个 主要 例子 。 例 如 ， 对 感 兴趣 的 人 的 所 有 电子 通信 的 情绪 和 上 下 文 执 
行 统计 分 析 。 又 例如 ， 快 速 地 向 调查 者 提供 感 兴趣 的 主题 的 关键 词 云图 等 。SAS Visual Investigator 还 提供 了 更 加 全 面 地 理解 可 疑 人 员 的 可 疑 行为 模式 的 方式 : 调查 人 员 不 仅 可 以 看 到 
是 什么 具体 行为 触 皮 了 可 疑 人 员 的 相关 风险 的 和 警报， 还 可 以 随 着 时 间 推 移 探 索 所 有 隐 含 在 数据 源 中 的 模式 。 


可 以 想象 一 下 ， 通 过 使 用 SAS Visual Investigator， 调 查 员 在 一 个 统一 的 仪表 板 视图 中 看 到 了 在 短 时 间 内 ， 某 名 公司 职员 反复 提 到 他 的 电子 邮件 中 的 财务 问题 ， 或 者 一 直 对 他 的 管 
理 团队 表达 负面 情绪 ， 或 收 到 和 酒 后 驾车 相关 的 法 院 诉讼 等 信息 。 


同样 可 以 想象 ， 通 过 使 用 SAs Visual Investigator， 调 查 员 每 日 登录 到 他 的 工作 台 ， 发 现 异 常 的 IT 活动 警报 ， 并 通过 完整 的 网 络 视图 查看 这 些 异 常 活动 相关 联 的 电子 邮件 内 容 。 例 
如 ， 如 果 能 提前 观察 爱德华 .斯 庄 登 的 工作 活动 ， 包 括 在 系统 中 登录 和 下 载 活动 ， 以 及 他 发 送 给 自己 的 电子 邮件 的 数量 远 远 高 于 平均 值 等 情况 ， 那 么 这 样 的 个 体 行 为 模式 将 超过 阔 值 生 
成 警报 ， 这 时 便 可 以 使 用 SAs Visual Investigator 将 它们 与 类 似 角色 的 个 体 行为 进行 比较 ， 以 便 更 早 地 将 这 些 活 动 标记 为 高 风险 的 潜在 内 部 威胁 。 


汇总 起 来 ，SAS Visual Investigator 面 向 的 应 用 领域 主要 包括 : 
` 银行 和 金融 行业 针对 金融 欺诈 和 反 洗 钱 进行 可 视 化 调查 。 
. 国家 安全 部 门 和 执法 机 构 针 对 犯罪 或 丽 怖 活动 进行 可 视 化 调查 。 
律师 事务 所 进行 关系 探索 。 
` 医院 和 公共 卫生 部 门 防范 疾病 流行 和 扩散 。 


“ 希望 利用 物 联网 ， 通 过 设置 监控 场景 来 查找 感 兴趣 的 事件 的 组 织 。 


7.2 SAS Visual Investigator 的 主要 功能 和 系统 架构 


SAS Visual Investigator 主 要 包括 以 下 功能 。 
. 报警 和 事件 管理 : 智能 地 按 优先 级 别 报警 ， 有 利于 分 类 、 调 查 和 处 置 。 
` 搜索 和 发 现 : 提供 强大 的 搜索 功能 ， 包 括 自由 文本 和 地 理 空间 搜索 、 筛 选 提 炼 结果 、 可 视 化 选项 (网络 视图 、 地 图 、 时 间 表 等 ) 以 及 其 他 功能 。 
. 实体 分 析 : 利用 网 络 和 实体 生成 流程 自动 建立 网 络 、 分 解 实体 ， 基 于 最 新 文件 和 数据 确定 社区 。 
. 调查 工作 区 : 提供 交互 式 工作 区 ， 收 集 、 探 索 并 分 析 相 关 的 调查 数据 。 


SAS Visual Investigator 所 依赖 的 系统 架构 如 图 7-1 所 示 。 


SAS Visual Investigator 的 系 纺 架 构 
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图 7-1 SAS Visual Investigator 系 统 架 构 


正如 先前 所 述 ，SAS Visual Investigator 是 基于 SAS 的 最 新 分 析 平 台 SAS Viya 的 可 视 化 调查 产品 ，SAS Viya 核 心 处 理 引 警 包括 云 分 析 服 务 (Cloud Analytic Service) 、 无 状态 的 
微服 务 (Micro Services) 和 网 络 分 析 模 块 (Network Analytics) 。 


如 图 7-1 所 示 ，SAS Visual Investigator 目 前 支持 使 用 PostgreSQL 和 Oracle 作 为 数据 源 存储 环境 。 实 体 数 据 (例如 客户 姓名 ， 住 址 和 银行 账户 等 ) 被 实体 解析 模块 (Entity 
Resolution) 递归 分 解 、 归 并 ， 形 成 以 某 实 体 元 素 (例如 银行 账户 ) 作为 中 心 节点 的 网 络 关 系数 据 (Network Definitions) 存储 起 来 ， 供 网 络 分 析 模 块 (Network Analytics) 使 
用 。 警 报 数据 可 以 通过 消息 队列 等 方式 推送 并 人 存放 在 应 用 层 数 据 中 。 实 体 数据 、 天 系数 据 和 和 警报 数据 都 将 被 同步 到 分 布 式 部 署 的 弹性 搜索 模块 (ElasticSearch) 中 ， 通 过 高 性 能 的 搜 
索引 擎 供用 户 进行 关键 信 息 匹 配 查 询 。 


用 户 最 终 通 过 浏览 器 登录 并 使 用 SAS Visual Investigator 产 品 。 


7.3 SAS Visual Investigator 在 预防 违规 或 犯罪 领域 的 应 用 


在 本 节 中 ， 将 虚拟 一 个 名 为 享 利 的 员工 ， 由 于 个 人 原因 ， 在 近日 进行 了 一 些 破 坏 公司 正常 运营 的 活动 。 我 们 尝试 使 用 SAS Visual Investigator 来 提前 发 现 这 些 潜在 风险 ， 并 预防 亭 
利 可 能 的 负面 行为 。 


需要 注意 的 是 ， 在 使 用 SAS Visual Investigator 之 前 ， 需 要 使 用 另外 的 工具 来 对 相关 数据 源 中 的 数据 进行 建 模 ， 并 根据 欺诈 检测 模型 对 数据 进行 评分 。 一 个 例子 是 使 用 SAS Visual 
Statistics 和 SAS Visual Scenario Designer 创 建 欺 诈 检测 模型 ， 并 将 模型 代码 部 署 到 数据 库 上 ， 基 于 模型 对 全 部 数据 进行 评分 。 生 成 出 来 的 模型 评分 和 警报 信息 作为 SAS Visual 
Investigator 的 输入 数据 源 。 在 7.4 节 ， 将 详细 说 明 如 何 使 用 SAS Visual Scenario Designer 生 成 警报 信息 。 


除了 生成 的 警报 信息 外 ， 在 使 用 SAS Visual Investigator 之 前 ， 可 能 需要 收集 所 关心 员工 的 各 项 记录 ， 包 含 邮件 通信 历史 、 邮 件 附 件 信 息 、 电 话 号 码 和 地 址 信息 等 。 这 部 分 信息 可 
以 作为 另 一 数据 源 补 充 完善 被 调查 对 象 的 背景 ， 参 与 到 SAs Visual Investigator 的 实体 网 络 图 的 生成 和 弹性 搜索 中 来 。 


7.3.1 从 警报 管理 中 友 现 高 风险 活动 


图 7-2 展 示 了 使 用 SAS Visual Investigator 连 接 并 监控 本 公司 IT 系统 警报 的 界面 。 





SAS Visual Investigator 中 默认 的 栏目 包括 主页 、 


系统 中 的 所 有 警报 条 目 ， 如 图 7-3 所 示 。 


可 以 看 到 ， 公 司 内 部 的 警报 按照 组 
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图 7-2 ”监控 界面 


Investigation 


op 


警报 和 搜索 三 项 。 主 页 可 以 进行 定制 化 排列 和 添加 ， 用 来 保证 用 户 天 心 的 组 件 可 以 被 创建 到 偏好 位 置 。 警 报 汇 忠 显示 截至 目前 ， 


织 部 门 进行 了 分 类 ， 在 总 共 55 条 信息 中 ， 来 自 财会 部 门 员工 的 警报 信息 最 多 ， 为 16 条 。 


作为 调查 员 ， 开 始 一 天 的 新 工作 ， 可 以 点 击 警 报 栏 目 切 换 到 警报 列表 ， 并 开始 分 析 处 理 高 优先 级 的 警报 信息 ， 如 图 7-4 所 示 。 
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图 7-3 ”警报 汇总 
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图 7-4 ”处 理 高 优先 级 的 警报 信息 
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正如 本 节 前 文 所 述 ， 图 7-4 的 警报 信息 都 是 根据 员工 的 邮件 记录 进行 情感 分 析 产 生 模 型 并 进行 评分 ， 在 设置 靖 值 后 得 出 的 。 可 以 对 这 些 信 息 ， 如 报警 时 间 、 部 门 、 职 位 进行 排序 和 
要 对 和 警报 所 属 部 门 为 IT Information Security 的 记录 进行 过 滤 ， 只 需要 输入 搜索 前 缀 “IT” ， 系 统 便 会 进行 模 


过 滤 。 通 常 按照 默认 的 评分 高 低 逐 条 处 理 就 可 以 了 。 作 为 调查 员 ， 本 
糊 匹 配 ， 如 图 7-5 所 示 。 
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在 IT 部 门 ， 只 有 5 条 记录 被 筛选 处 理 ， 并 且 只 有 一 条 员工 名 为 亨利 的 记录 分 值 很 高 ， 


图 7-5 ”模糊 匹配 
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需要 重点 关注 一 下 ， 如 图 7-6 所 示 。 
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分 卡 面板 和 和 警报 详细 信息 ， 在 下 一 节 将 针对 这 些 信息 对 享 利 的 潜在 风险 行为 进行 进一步 的 分 析 。 


通过 实体 分 析 友 现 风险 活动 的 诱因 
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图 7-6 ”重点 关注 高 分 值 项 
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前 节 展 示 的 警报 详细 页 面 由 5 个 活动 选项 卡 组 成 ， 包 括 警 报 详细 信息 、 风 险 汇 总 、 电 子 邮件 记录 、 系 统 访问 记录 和 网 络 图 。 这 些 活动 选项 卡 可 以 由 客户 定制 化 生成 ， 展 示 客 户 天 系 


的 细节 信息 ， 如 图 7- 7 所 示 。 
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图 7-7 警报 详细 信息 


首先 看 一 下 警报 选项 卡 的 评分 卡 面板 ， 其 中 包括 端点 保护 频繁 改写 、 特 权 账 户 访问 行为 、 大 量 文件 上 传 和 高 风险 EXE 类 型 文件 下 载 等 。 正 是 这 些 行为 导致 了 员工 亨利 的 高 评分 警 
报 ， 现 在 需要 了 解 亨利 进行 这 些 行 为 背后 的 原因 或 目的 。 可 以 通过 点 击 风险 汇总 (Risk Summary) 进行 行为 细节 的 多 维度 探索 ， 如 图 7-8 所 示 。 


在 风险 汇总 的 左上 面板 ， 可 以 看 到 亨利 在 过 去 30 天 内 和 人 参考 组 以 及 国 值 的 对 比 记 录 。 人 参考 组 是 根据 数据 库 内 对 用 户 行为 进行 聚 类 计算 和 分 组 得 来 的 统计 量 ， 北 值 是 根据 IT 策略 进行 
计算 得 来 的 或 者 预先 设 定 的 固定 值 。 点 击 亨利 每 一 天 的 警报 点 ， 在 风险 因素 (Risk Factors) 面板 刷新 得 到 相应 的 记录 。 我 们 观察 最 新 的 、 超 过 立 值 的 记录 ， 可 以 看 到 一 系列 的 高 风险 
操作 。 
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图 7-8 行为 细节 的 多 维度 探索 


这 些 高 风险 操作 是 否 有 迹 可 循 呢 ” 继续 探索 高 风险 活动 时 间 轴 面板 (High Risk Activities Time) ， 从 行为 类 型 和 时 间 双 重 维度 进行 探索 ， 如 图 7-9 所 示 。 
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图 7-9 ”从 行为 类 型 和 时 间 双 重 维度 探索 


高 风险 活动 时 间 轴 面板 中 的 内 容 显示 ， 在 过 去 近 两 个 月 的 时 间 中 ， 享 利 的 大 部 分 风险 行为 保持 了 较 高 的 一 致 性 ， 如 他 每 日 大 量 地 浏览 网 页 等 。 而 在 最 近 的 10 天 内 ， 享 利 出 现 了 之 
前 不 曾 出 现 的 四 类 高 风险 行为 ， 如 关闭 反 病 毒 服务 、 特 权 账 户 访问 等 。 


点 击 电子 邮件 记录 (E-Communications) 选项 卡 ， 通 过 文本 分 析 ， 探 查 为 什么 他 要 进行 这 些 操作 。 


右上 角 的 E-Communications Topics of Interest 用 来 显示 享 利 最 近 30 天 的 邮件 通信 记录 ，SAS Visual Investigator 根 据 情感 分 析 ， 将 每 天 的 邮件 分 成 冲突 、 不 满 、 财 务 困境 、 阴 
郁 、 负 面 和 违规 6 类 主题 ， 并 以 柱状 图 形式 汇总 在 时 间 X 轴 上 。 系 统 将 这 些 风 险情 绪 的 邮件 总 数 进 行 票 加， 同时 放置 在 时 间 X 轴 上 ， 用 以 体现 个 人 的 风险 情感 发 展 趋势 ， 如 图 7-10 所 示 。 
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My manager is the rooct cause that every one of us here suffers. He is the best 
politician | have ever seen in my lite. Ever since he promoted to be a manager, he 
started to play all the dirty games among us. Not these junks. how does it 
happen? pick ur guess! How abocut we go the manger abowe him. Too bad.. the 


upper manager is his buddy. There is no complain or any bad thing would ever 


Jan 19, 2016 Tobia... 


leak out through these 2 layers of managers. They cover everything up very well. 
Infact, one of the manageras jobs should ensure the fairness. Well.., "fairness" is 
NEVER been seen at this team. 


| hate this job. | really don't care anymoreat! argh! Yesterday they told me that 
my training credits, part of them, which is a HUGE beauyurocratic nightmare in the 
first place, three-year-long ordeal, did not count! | was observed twice and went 


Jan 19, 2016 Alana... Drisco... to three meetings about it and it is astressful process anyway, and they are saying 


图 7-10 个 人 情感 发 展 趋势 


通过 对 享 利 的 邮件 记录 进行 分 析 ， 可 以 看 到 在 最 初 的 半 个 月 里 ， 他 有 过 4 次 关于 财务 主题 方面 的 邮件 通信 。 点 击 第 20 天 的 蓝 色 柱状 条 目 ， 显 示 邮 件 正文 ， 看 得 出 来 享 利 个 人 陷入 了 
房租 拖欠 的 财务 困境 。 邮 件 通信 内 容 如 图 7-11 所 示 。 
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图 7-11 ”邮件 通信 和 内容 


正如 邮件 内 容 所 示 ， 享 利 对 房租 违约 了 ， 已 经 5 个 月 没有 付 房租 ， 总 计 达 3500 美 元 。 之 后 便 出 现 了 抱怨 等 更 多 的 负面 情绪 。 随 后 的 邮件 记录 可 以 看 出 他 越 来 越 对 部 门 和 公司 的 薪水 
和 市 场 策略 不 满 。 


在 系统 左 侧 的 写作 风格 面板 中 ， 通 过 对 比 享 利 和 对 照 组 的 雷达 图 ， 发 现 享 利 在 邮件 中 涉及 了 更 多 的 个 人 负面 情绪 ， 如 图 7-12 所 示 。 


Wiriung Stylo Comparison E.Communicatons Tor 


$ 
Ayy oore 
« 
ame 
) 
2 
2 
Cree Cnm arts 
| Ye 
© 一 一 
DNSND 
Email Contonts - Disgtu 
Deeb | | b 
jpn 49 
Ww im AOyeeee 2015 位 
~ Cap 





图 7-12 雷达 图 


通过 点 击 系统 访问 记录 (Time of Day Access) 选项 卡 ， 进 入 到 系统 登录 记录 汇总 ， 如 图 7-13 所 示 。 
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图 7-13 ”系统 登录 记录 汇总 


在 图 7-13 中 ， 暗 红 高 亮 显示 的 是 享 利 在 过 去 30 天 内 的 系统 登录 记录 。 享 利 在 10 天 之 前 的 每 日 工作 时 间 略 小 于 对 照 组 的 平均 工作 时 间 ， 但 之 后 便 出 现 迟 到 早退 的 记录 并 逐渐 严重 。 
另外 ， 最 近 5 天 里 ， 在 深夜 中 ， 享 利 也 进行 了 系统 访问 。 


最 后 切换 到 网 络 图 (Network) 面板 ( 见 图 7-14) ， 观 察 亨利 在 公司 内 部 的 活动 以 及 他 和 其 他 员工 通过 通信 产生 的 网 络 天 系 ， 并 进行 网 络 分 析 ， 以 便 从 和 他 相关 联 的 员工 中 发 现 
更 多 线索 。SAS Visual Investigator 的 网 络 图 是 根据 实体 (如 员工 ) 和 实体 的 属性 (如 邮箱 ， 电 话 等 ) 相互 联系 而 生成 的 。 
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图 7-14 ”网络 图 面板 
在 图 7-14 的 右边 栏 ，SAS Visual Investigator 提 供 网 络 分 析 的 6 项 工具 ， 包 括 网 络 属性 、 节 点 属性 、 链 接 属性 、 选 择 、 对 象 检查 器 和 中 心性 ， 见 表 7-1。 
在 中 心性 中 ， 提 供 了 以 下 6 个 统计 参数 进行 分 析 。 
. 紧密 (Closeness) : 接近 中 心性 考察 每 个 节点 到 其 他 节点 最 短路 的 平均 长 度 。 也 就 是 说 ， 对 于 一 个 节点 而 言 ， 它 距离 其 他 节点 越 近 ， 那 么 它 的 中 心 度 越 高 。 
` 中 介 度 (Betweenness) : 指 的 是 一 个 节点 担任 其 他 两 个 节点 之 间 最 短路 的 桥梁 的 次 数 。 一 个 节点 充当 “中 介 ” 的 次 数 越 高 ， 它 的 中 介 中 心 度 就 越 大 。 
度 (Degree) : 指 的 是 有 多 少 节点 与 此 节点 直接 相连 。 
.特征 向 量 (Eigen 又 称 Eigenvectot) : 一 个 影响 指标 的 度量 。 通 过 计算 每 个 节点 和 与 之 关联 的 链接 得 到 。 通 常 一 个 高 的 分 节点 在 网 络 中 有 着 更 大 的 网 络 影响 。 
影响 1 (First order influence centrality measure) 和 影响 2 (Second otdet influence centtality measute) : 类 似 于 度数 ; 是 考虑 了 链接 和 相 邻 节点 ， 以 及 外 层 相 邻 节 点 的 权重 后 给 出 的 计 


算 指标 结果 。 


表 7-1 网 络 分 析 工具 
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括 拉 伸 布局 或 者 压缩 布局 ， 同 | 点 属性 中 可 以 设置 
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点 击 影响 1 表格 ， 可 以 看 到 享 利 的 评分 为 0.62， 一 个 名 为 EXT01_HenryJBuck 的 实体 (系统 在 预 处 理 时 将 外 部 邮箱 关联 的 用 户 命名 为 EXT 前 级 ) 评分 也 较 高 。 这 表明 享 利和 享 利 的 外 
部 邮箱 节点 在 子 网 中 有 着 重要 的 位 置 ， 被 链接 到 了 相对 较 多 并 且 较 重要 的 相 邻 节点 ， 这 在 反 欺 许 和 安全 调查 中 是 一 个 需要 进一步 审查 的 因素 ， 如 图 7-15 所 示 。 
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点 击 EXT01_HenryJBuck 外 部 邮箱 节点 ， 选 择 工具 中 的 对 象 检查 器 ， 给 出 天 于 这 个 实体 更 多 的 细节 信息 ， 如 外 部 邮箱 地 址 等 ( 见 图 7-16) 。 逐 个 点 击发 送 到 外 部 邮箱 的 4 封 邮件 ， 


a Sine 
站 
Felix Baxter Be 四 目 目 
henryjbusr@yj botanick Go 时 和 自 
henryjbuck@out Odessn Ueirdre ... 


DA 要 要 
enryj5 jbock@out 


Heney Jornes Buc Ddyss Tewa 2 

© 

全 | 
A 434 人 CU5 
501234 n 

DA 4 Akon D Dd 
5 John He Rhianpnon Rose 
起 DA 也 DA 
Edan Preston 6 0HQAH © 目 


图 7-15 ” 相 邻 节点 
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可 以 看 到 都 是 带 附件 的 信息 ， 值 得 引起 注意 的 是 ， 在 2016-01-13 日 友 送 到 享 利 外 部 邮箱 的 邮件 包含 了 一 个 96MB 的 名 为 “source code for bay” 的 附件 。 
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通过 鼠标 右键 点 击 亨利 的 外 部 邮箱 节点 ， 可 以 展开 到 第 二 级 。 
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图 7-16 ”检查 外 部 邮箱 邮件 


code for bay” 的 附件 。 这 两 份 大 附件 邮件 也 是 触发 IT 警报 的 原因 之 一 ， 如 图 7-17 所 示 。 
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可 以 看 到 享 利 在 两 次 邮件 发 送 中 同时 将 邮件 发 送 给 了 外 部 邮箱 和 公司 同事 Felix， 并 且 包 括 了 96MB 的 名 为 “Source 
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图 7-17 ”展开 邮箱 外 部 节点 
通过 以 上 分 析 ， 看 出 亨利 可 能 是 公司 内 的 潜在 威胁 ， 他 可 能 由 于 对 公司 心 仓 不 满 将 公司 的 机 密 内 容 泄露 出 去 ， 影 响 公司 的 正常 运转 ， 需 要 更 高 管理 层 进行 应 对 。 
如 图 7-18 所 示 ， 点 击 “ 搁 置 ”， 表 示 此 警报 将 变 成 搁置 状态 直到 指定 的 截止 期 ( 见 图 7-19) 。 我 们 需要 寻求 更 高 管理 层 的 帮助 ， 进 行进 一 步 的 研究 后 对 该 条 警报 进行 处 理 。 
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图 7-18 ”搁置 警报 
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图 7-19 ” 设 定 搁置 日 期 


至 此 ,我 们 完成 了 这 条 来 自 于 IT 部 门 的 警报 ， 并 针对 享 利 近 期 的 行为 进行 了 初步 的 调查 。 


7.4 SAS Visual Investigator 在 金融 欺诈 及 反 洗 钱 领 域 的 应 用 


在 本 节 中 ， 将 虚构 一 个 银行 内 部 员工 ， 进 行 洗钱 操作 ， 看 一 看 如 何 使 用 SAs Visual Investigator 进 行 金融 反 舱 诈 和 反 洗 钱 的 调查 和 应 对 。 


亚历山大 (Megan Alexander) 作为 A 银行 的 支行 经 理 已 经 工作 十 年 ， 近 期 她 被 怀疑 参与 了 一 个 通过 互联 网 将 用 诈骗 等 不 正当 手段 从 某国 得 来 的 钱 款 和 高 价值 货物 转移 到 另 一 国 
的 活动 中 。 


作为 一 个 金融 欺诈 调查 员 ， 需 要 找 出 亚历山大 参与 欺诈 活动 的 证 据 ，SAS Visual Scenario Designer 可 以 帮 用 户 从 烦琐 的 交易 数据 中 进行 过 滤 、 分 析 、 生 成 警报 (alert) 。 这 些 警 


报 会 被 送 到 SAS Visual Investigator 进 行进 一 步 的 分 析 。 


7.4.1 生成 警报 信息 


第 一 步 ， 需 要 用 SAS Visual Scenario Designer 生 成 警报 触发 规则 。 


STREET tle De ll 











Name Description Published Updated ~ Updated By 
Wy Many Deposits A large number of deposits in any five day period. Yes 01/17/2017 10:45 下 午 videmo 
Wy Large Withdrawals Accounts with 5+ large withdrawals in any five day period. Yes 01/17/2017 10:39 下 午 videmo 
Wy Gambling Transactions with a spend_category of "Gambling" Yes 01/17/2017 10:32 下 午 videmo 
Wy Money Mule Transactions Transactions going to or from a mule account Yes 01/17/2017 08:44 上 午 videmo 


图 7-20 生成 警报 触发 规则 


用 户 登 录 SAS Visual Scenario Designer 看 到 的 一 个 页 面 就 是 Flow 页 面 (如 图 7-20 所 示 ) 。 表 中 的 每 一 行 代表 了 一 条 Flow。Flow 可 以 是 一 组 计算 的 集合 ， 也 可 以 是 一 组 聚合 或 者 
业务 逻辑 的 集合 ， 用 来 生成 SAs Visual Investigator 使 用 的 警报 信息 。 从 图 中 可 以 看 到 调查 员 已 经 定义 了 4 条 评分 规则 : 


` 记录 最 近 5 天 内 发 生 了 多 笔 大 额 存 款 的 账户 并 打分 。 

. 记录 最 近 5 天 发 生 的 多 笔 大 额 取款 的 账户 并 打分 。 

. 记录 发 生财 博 交 易 (Gambling Transaction) 的 账户 并 打分 。 

" 记录 过 去 5 天 发 生 了 大 额 存款 和 取款 交易 ， 并 且 短 期 内 账户 余额 较 少 的 账户 并 打分 。 
点 击 进入 关心 的 钱 又 账户 规则 Flow， 显 示 如 图 7-21 所 示 的 内 容 。 


在 左面 版 ， 显 示 数 据 源 为 一 张 名 为 transaction 的 账户 交易 表 ， 这 张 表 也 是 预先 被 导入 到 SAS 内 存 分 析 引 擎 中 的 。 交 易 表 内 容 可 大 可 小 ， 取 决 于 分 析 引 擎 集群 的 可 用 物理 内 存 容 
量 ， 在 实际 生产 中 ， 可 能 只 需要 针对 近期 (如 一 星期 、 一 个 月 等 ) 的 用 户 交 易 进行 往 选 。 


点 击 数据 (Data) 栏 ， 可 以 看 到 全 部 账户 最 近 3 个 月 友 生 的 交易 记录 ， 包 括 交 易 ID (Txn Id) 、 交 易 日 期 (Txn Date) 、 账 户 ID (Account Id) 、 交 易 对 手 方 
ID (Counterparty) 、 金 额 (Amount) 、 交 易 类 型 (Txn Type) 、 支 出 类 别 (Spend Category) 及 对 于 特定 的 交易 需要 记录 的 银行 员工 Id (Employee 1d) 等 列 。 


点 击 进入 钱 骤 交易 页 面 ， 显 示 场 景 信息 、 计 算 列 、 聚 合 、 规 则 和 输出 5 个 条 目 ， 如 图 7-22 所 示 。 


所 C 个 © racesx12097.demo.sas.com/SASVisualScenarioDesigner/index.html#/flows/10000 六 | 外 ©@ 器 
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Wh Money Mule Transactions 
lable containing [ransaction 
匡 transaction 
- MScenarios © = 机 
Summary Data pe 
县 Money Mule Tran., © Ea Column Name Type Missing Min Max Mean 

4 id CHARACTER 
~ bmn_id CHARACTER 
.bn_date NUMERIC 0 3/1/2016 -5/6/2016 -4/1/2016 和 
# account_id CHARACTER 
YY counterparty CHARACTER 
-| amount NUMERIC 0 -100 000..， 100 000.00 0.00 OO 
A bn._type CHARACTER 
YY spend_category CHARACTER 
~ employee_id CHARACTER 
国 valid_to NUMERIC 0 12/23/2... 12/29/2... | 12/23/2... [a 


图 7-21 账户 规则 Flow 
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Money Mule Transactions 
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v MM Scenarios (@ An account with large amount of deposit and withdraw, but small balance on average in a short period. 


BE; Money Mule Tran... © 


v © Scenario Properties 


se Te 二 
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2 * 蒜 
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Triage queue: 





Internal Fraud v 
Date and time key: bavidite a 
Date and time unit: Day 


» GQ Calculated Columns 


» © Aggregations 
» © Rule 


» © Output 


图 7-22 ” 钱 骤 交易 页 面 
点 击 展开 场景 属性 页 面 ， 可 以 增加 观察 实体 (Actionable entity) 。 该 场景 触发 生成 的 警报 会 指明 是 这 条 观测 实体 产生 了 报警 。 在 此 例 中 ， 观 察 实体 是 账户 。 
分 类 队列 (Triage queue) 用 来 在 SAS Visual Investigator 区 分 警报 信息 的 类 型 ， 例 如 可 以 定义 内 部 欺诈 和 洗钱 两 类 队列 ， 将 不 同 的 规则 导入 到 两 类 感 兴趣 的 队列 中 。 


“计算 列 ” 部 分 允许 在 表 中 创建 可 用 于 为 特定 业务 生成 规则 的 列 。 这 里 创建 了 一 个 计算 交易 金额 绝对 值 的 列 。 这 有 助 于 汇总 可 能 具有 负 值 的 单个 交易 金额 ， 例 如 取款 交易 ， 如 图 7- 
23 所 示 。 


v O Calculated Columns 
[* 


v fn abs_amount 同人 个 也 曾 





ABS(amount) | 


图 7-23 ”创建 特定 规则 


由 于 要 在 时 间 段 内 跟踪 账户 活动 ， 因 此 需要 创建 聚合 。 在 这 里 ， 对 每 个 账户 的 最 近 5 次 人 存款 和 最 后 ?5 次 提 款 的 值 进行 求 和 。 请 注意 ，abs_amount 列 用 于 最 后 5 次 取款 的 总 金额 。 


场景 的 规则 部 分 可 以 说 是 最 重要 的 部 分 。 这 里 指定 了 警报 条 件 : 如 果 累 计 total _ deposit 值 和 累计 total withdrawl 值 超过 $20,000， 且 由 (total _ deposit- 
total withdrawl) / (total deposit) 定义 的 比率 产生 小 于 或 等 于 0.1 的 值 ， 则 会 触发 账户 。 
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图 7-24 ”账户 资金 比率 


图 7-24 所 示 为 比率 衡量 在 过 去 5 次 交易 中 留 在 账户 中 的 账户 资金 的 百分比 。 如 果 这 个 比率 很 低 ， 这 可 能 意味 着 该 账户 是 一 个 钱 又 账户 。 这 些 类 型 的 账户 作为 非法 资金 的 转移 渠道 ， 
常常 友 生 大 额 的 提取 款 ， 但 余额 一 直 较 少 的 情 ) 


在 “输出 ”部 分 中 ， 可 以 指定 随 警 报 一 起 发 送 的 消息 ， 以 及 量化 警报 严重 程度 的 分 数 ， 如 图 7-25 所 示 。 














v © Output 
Message: “In the past 5 days, the total amount of deposit is "||total_depositl| "and the total amount of withdraw is" || total_withdraw | @® 
Score; | 100 | 





图 7-25 ”指定 随 警 报 一 起 发 送 的 分 数 


要 测试 该 场景 ， 可 以 单 击 位 于 项 部 工具 栏 中 的 测试 场景 按钮 。 测 试 结果 由 弹 窗 显示 ， 如 图 7-26 所 示 。 





SAS® Visual Scenario Designer 
Flows Wg Money Mule Transactions > 口 
日 吓人 > [~ CG Ws 曾 ia 
Wy Money Mule Transactions “< 
Resul yl | | Ei 
团 transaction 
Total records: 600 036 
ng bs Scenarios OO Sx enNarno fired events 下 el 日 OUPS 2.97 1 
, Total entities (account): 15 O011 
EE: Money Mule Tran © C =r I CCOWUNM , Dp 
Sar iple of OO itpurt Records 
Scenario Fired account _id {Group) Entity Key laccou nt_id) txn_ocate S 
生 Yes XYZ001 XYZ001 5/6/2016 10 
No ACC1000143 5/6/2016 
No ACC1005173 5/6/2016 
AND 曾 
No ACC1000237 5S/6/2016 一 
AND 凋 
Ne ACC1000261 5/6/2016 上 
AND OR 凋 
No ACC1000277 5/6/2016 
No XYZ1000359 5/6/2016 
Ne ACC1000319 5/6/2016 
| Ar ~ rr 着 人 站 大 RAAATASAXA 


图 7-26 ”测试 结果 
结果 显示 ， 在 最 近 三 个 月 的 600036 条 交易 中 ， 通 过 计算 15011 条 不 同 账户 的 交易 情况 ， 发 现 了 一 条 XYZ001 的 账户 存在 问题 行为 的 特征 。 


点 击 顶 部 工具 栏 的 发 布 flow 按 钮 可 以 自动 实时 地 将 测试 生成 的 警报 发 送 给 SAS Visual Investigator。 


7.4.2 在 警报 控制 台中 发 现 风险 


此 银行 使 用 的 SAS Visual Investigator 的 首页 包含 了 一 系列 定制 的 组 件 ， 警 报 汇总 、 创 建新 调查 、 动 态 搜索 和 近期 查看 的 对 象 是 其 中 的 四 大 功能 。 
点 击 警报 汇总 中 的 内 部 欺诈 ， 可 以 看 到 目前 有 一 条 高 评分 的 警报 待 处 理 ， 如 图 7-27 所 示 。 
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图 7-27 待 处 理 警 报 
调查 员 可 以 从 这 条 高 优先 级 的 警报 开始 处 理 。 


切换 到 警报 标签 页 面 ， 尝 试点 击 评分 列 并 按 评分 从 高 到 低 对 警报 进行 排序 ， 结 果 显 示 有 一 条 关联 账户 为 XYZ001 的 ID 为 Alert_23078714 的 警报 。 这 条 和 警报 正 是 刚刚 由 Visual 
Scenario Designer 测 试 生 成 的 钱 又 账户 信息 。 可 以 从 评分 卡 上 看 到 和 警报 注册 的 详细 日 志 为 “在 过 去 的 5 天 内 ， 总 存款 金额 为 22000， 总 取款 金额 为 23000”， 如 图 7-28 所 示 。 





AC VU - 
主页 ( 史 扳 ) 搜索 | Q 
Internal Fraud > 关闭 * 4 376 个 艾 关 
Scorey : Alert id : Primary object type : Primary object id Alertservice count  : Status date/time 
100 Alert_23078714 account XYZ001 2 Jan 17, 2017 8:42:50 AM 
@%0 Alert_26902824 account ACC1008305 4 2017 10:39:56 PM 
Gy?0 Alert_9675100 account XYZ1003670 Jan 17, 2017 10:;39:56 PM 
@”0 Alernt 14382923 account ACC1016279 4 7, 2017 10:39:56 PM 
@”"0 Alert_38873431 account ACC1017515 2 Jan 17, 2017 10:39:56 PM 
@"0 Alert_2277251 ACC1018057 4 Jan 17, 2017 10:39:56 PM 
Gy0 Alert_10171377 account XYZ1002412 6 Jan 17, 2017 10:39:56 PM 
©@75 Alert_ 6454 a ACC1018671 4 Jan 17, 2017 10;39:56 PM 
@75 Alert_ 45147177 account XYZ1000523 17, 2017 10:39:56 PM 
@7s Ale 697718 accoun ACC10084 10:39:56 PN 
OS 
Scorecard Score: 100 i 
In the past 5 days, the total amount of deposit is 25000 and the total Alert_23078714 
amount of withdraw is 23000 Actioneble entity type 

account 

Acbonable 

XYZ001 

Score 无 网 络 数 据 


图 7-28 ”警报 标签 页 面 


作为 调查 员 ， 需 要 进一步 研究 为 什么 该 账户 近日 发 生 多 笔 大 笔 存 取款 并 且 账 户 平均 余额 较 低 。 


7.4.3 ”搜索 实体 并 进行 切 步调 理 


点 击 搜索 标签 ， 页 面 会 显示 所 有 和 XYZ001 账 户 相 关 的 实体 记录 ， 包 括 警 报 、 内 部 账户 、 外 部 账户 ， 风 险 评分 和 交易 。 在 页 面 左 侧 的 过 滤器 的 外 部 账户 列表 中 发 现 XYZ001 账 户 ， 
如 图 7-29 所 示 。 
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过 滤器 《显示 1 个 结果 结 黑 排序 依 据 : | 相关 性 -~ | ”每 页 结果 数 :| 40 ~ | ， 工具 | 对 象 检 吉 器 ~ 》 
口 全 部 举 型 目 X 选择 一 个 对 象 来 查看 详细 信息 。 
»* 品 A Alert(1 En 
局 目 External Account(1 


图 7-29 ”账户 列表 


点 击 进入 到 详细 信息 页 面 。 由 于 XYZ001 是 外 部 账户 ， 


很 难得 知 关于 账户 的 详细 资料 ， 如 开户 人 、 开 户 日 期 等 。 只 能 暂时 从 网 络 天 系 图 入 手 调查 此 外 部 账户 相关 的 内 部 账户 ， 如 图 
7-30 所 示 。 
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图 7-30 XYZ001 的 网 络 关系 图 


息 。 可 以 点 击 网 络 图 中 的 XYZ001 节 点 并 将 其 加 入 工作 台 ， 从 而 逐条 分 析 这 些 存 取 款 和 相关 账户 。 生 产 的 全 新 工作 区 如 图 7-31 所 示 。 
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图 7-31 生成 的 全 新 工作 区 


7.4.4 在 工作 区 中 进行 详尽 调查 


现在 点 击 每 一 个 Branch、Online、Transfer 节 点 ， 就 可 以 在 页 面 右 侧 的 面板 获得 关于 每 一 条 交易 的 更 多 信息 ， 如 交易 日 期 、 金 额 等 。 为 了 挖掘 XYZ001 账 户 是 以 何 种 渠道 进行 多 次 
钱 骤 行为 时 ， 可 以 点 击 XYZ001 并 展开 2 级 实体 信息 ， 结 果 如 图 7-32 所 示 。 


百 心 \， -= 口 


当 XYZ001 展 开 2 级 实体 网 络 图 后 ， 可 以 更 加 清晰 地 看 到 外 部 XYZ001 总 共 与 4 个 银行 内 部 账户 (ACC222、ACC101、ACC123 和 ACC461) 发 生 了 交易 。 更 加 可 疑 的 是 ， 这 4 个 账户 


都 由 银行 雇员 亚历山大 (Megan Alexander) 经 手 。 上 点击 Megan Alexander 节 点 打开 ， 审 视 她 的 更 多 信息 ， 如 图 7-33 所 示 。 
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图 7-32 ”展开 XYZ0012 级 实体 信息 
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图 7-33 ”打开 Megan Alexandet 节 点 


亚历山大 是 银行 职员 ， 系 统 内 保留 了 她 的 基本 信息 ， 因 而 可 以 得 到 她 的 员工 ID、 入 职 日 期 和 支行 号 等 信息 。 从 左下 角 的 柱状 对 比 图 中 ， 看 到 她 在 过 去 60 天 内 触发 了 远 超 她 的 部 门 
和 区 域 平均 水 平 的 警报 。 从 组 织 结构 图 (Org Chart) 选项 卡 中 ， 可 以 看 到 她 在 公司 内 部 的 上 下 级 汇报 层级 ， 她 有 5 个 直接 汇报 的 下 属 员工 ， 如 图 7-34 所 示 。 


点 击 额外 信息 栏 


亚历山大 同时 有 过 数 次 浏览 可 疑 账户 的 行为 记录 ， 从 而 触 友 了 警报 。 


(Additional Information) ， 生 成 如 图 7-35 所 示 的 报表 ， 风 险 (Risk Scores) 标签 下 的 表格 显示 亚历山大 负责 的 几 个 客户 已 经 使 用 潜在 的 钱 骤 账户 进行 校 验 ， 


切换 至 活动 (Activity) 标签 ， 发 现 亚 历 山 大 一 直 在 搜索 外 国 年 长 的 高 财富 账户 〈 见 图 7-36) 。 这 使 得 调查 员 更 有 理由 相信 她 正在 寻找 特殊 类 型 的 客户 。 
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图 7-34 亚历山大 下 属 的 直接 汇报 员工 
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Risk Scores (9) 


Score |: Score Type : Description 
A 100.00 Customer Layla Driscoll transacted 20 times at a branch with a potential mule account (XYZ001) 
Owen Anderson transacted 30 times at a branch with a potential mule account 
A 150.00 Customer 
(XYZ001) 
A 100.00 Customer Tia Davis transacted 20 times at a branch with a potential mule account (XYZ001) 
A 100.00 Customer Alex Davis transacted 20 times at a branch with a potential mule account (XYZ001) 
A 50.00 Employee Employee Megan Alexander transacted 10 times with customers on the same network 
A 80.00 Network There were 40 cases of "ELDERLY” account browsing for employee Megan Alexander 
A 120.00 Network There were 40 cases of "FOREIGN" account browsing for employee Megan Alexander 
, There were 40 cases of "HIGH WEALTH" account browsing for employee Megan 
A 80.00 Network 
Alexander 
A 120.00 Account Megan Alexander made 40 gambling transactions 


图 7-35 ”额外 信息 栏 


点 击 网 络 选项 卡 ， 得 到 以 亚历山大 为 中 心 的 网 络 关 系 图 ， 点 击 亚历山大 节点 选择 将 全 部 对 象 加 入 之 前 新 建 的 调查 工作 区 。 这 时 可 以 看 到 与 亚历山大 关联 的 诸多 实体 被 添加 到 以 
XYZ001 为 观察 中 心 的 网 络 观 察 工 作 区 中 ， 并 且 这 些 实 体 和 XYZ001 账 户 建 立 了 联系 。 


现在 仍然 点 击 XYZ001 账 户 ， 将 对 象 连接 展开 至 2 层 。 在 新 的 网 络 图 中 看 到 几 个 不 同 的 符号 ， 蓝 绿色 图 标 表 示 此 银行 持 有 的 账户 ， 粉 色 的 纸 图 标 表示 外 部 账户 ， 这 也 是 最 初 开始 调 
查 的 账户 (XYZ001) ， 带 有 粉色 人 物 的 图 标 代表 对 HR 数据 库 的 更 新 ， 黄 色 三 角形 表示 从 第 三 方 系统 提取 的 警报 记录 ， 带 箭头 的 灰色 图 标 表 示 账 户 之 间 发 生 的 交易 。 如 图 7-37 所 示 。 
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图 7-36 ”亚历山大 的 可 疑 活动 
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图 7-37 展开 对 象 连接 到 第 2 层 


检查 这 幅 图 ， 看 到 与 亚历山大 直接 相关 的 ACC801 账 户 是 她 的 银行 个 人 账户 。 她 的 个 人 账户 “ACC801” 总共 发 生 了 4 次 交易 ， 在 Online 节 点 属性 可 以 看 到 在 2016-04-11 发 生 了 一 
笔 5000 美 元 金额 的 交易 。 在 Online 节 点 左上 方 有 一 个 1 字 ， 表 示 剩 余 1 个 关联 节点 ， 可 以 继续 展开 该 关联 的 实体 。 点 击 Online 节 点 并 展开 ， 发 现 此 交易 产生 了 一 条 警 
报 “Alert_ 11117050”， 在 右面 板 的 对 象 检查 器 上 显示 此 交易 被 系统 判定 为 赌博 交易 。 


仅 有 以 上 信息 ， 还 不 足以 判定 亚历山大 参与 了 钱 骤 交易 。 点 击 “Change of Address” 节 点 ， 发 现 亚 历 山大 在 2013-03-18 日 修改 了 她 在 HR 数据 库 的 地 址 记录 ， 新 的 地 址 为 36 
station Road。 很 凑巧 的 是 银行 的 一 个 客户 欧文 《Owen Anderson) 使 用 同样 的 注册 地 址 ， 从 而 和 亚历山大 在 网 络 图 产生 了 关联 。 这 意味 着 欧文 可 能 认识 亚历山大 ， 也 可 能 意味 着 欧 
文 可 能 是 出 于 某 种 目的 ， 注 册 了 非 真实 账户 。 
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图 7-38 亚历山大 的 银行 个 人 账户 


为 了 标记 欧文 这 个 用 户 ， 可 以 选择 右边 工具 下 拉 单 的 节点 属性 ， 修 改 颜 色 和 形状 属性 ， 以 便 高 亮 提 示 ， 如 图 7-39 所 示 。 
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图 7-39 ”高 亮 标记 用 户 


作为 阶段 性 的 工作 成 果 ， 调 查 员 可 以 将 当前 的 网 络 图 添加 至 洞察 (静态 不 可 编辑 图 ) ， 并 可 打印 洞察 报告 或 将 其 保存 成 PDF 格 式 ， 作 为 阶段 性 的 文档 ， 友 送 给 上 级 管理 屋 。 如 图 7- 
40 所 示 。 
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图 7-40 生成 洞察 报告 


7.4.5 ”使 用 时 间 滑 块 进行 深度 挖掘 


选择 打开 时 间 滑 块 增加 一 个 时 间 维 度 进行 进一步 探索 。 如 图 7-41 所 示 ， 可 以 看 到 ， 从 亚历山大 入 职 到 2010 年 ， 她 的 账户 中 只 发 生 了 很 少 的 交易 。 在 这 段 时间 里 唯一 值得 注意 的 事 


Lm | 
口 


是 ， 在 2005 年 ， 一 个 名 为 萨 拉 (Sarah Watson) 的 员工 成 为 她 的 直接 报告 对 象 。 另 外 ， 在 2010 年 ， 亚 历 山 大 本 人 注册 成 为 银行 的 客户 。 通 常 ， 这 类 操作 不 会 产生 任何 警报 。 
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图 7-41 添加 时 间 维 度 


在 2012 年 和 2013 年 ， 注 意 到 在 网 络 图 中 ， 一 些 账户 陆续 连接 上 了 亚历山大 。 可 疑 的 是 ， 一 个 名 为 欧文 (Owen Anderson) 的 人 在 银行 创建 了 一 个 账户 ， 并 且 由 于 某 种 原因 ,他 
的 手机 号 码 与 亚历山大 在 修改 HR 数据 库 地 址 之 前 注册 的 移动 号 码 相 匹配 ( 见 图 7-42) 。 仪 赁 这 些 证 据 就 需要 进行 彻底 的 调查 。 
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图 7-42 ”欧文 的 账户 


在 2016 年 ， 几 个 有 趣 的 事情 发 生 。 可 以 看 到 亚历山大 在 浏览 年 长 、 外 国 和 高 净值 账户 时 发 现 ACC101，ACC461 和 ACC222。 也 能 观察 到 亚历山大 在 此 后 不 久 便 促成 并 经 手 了 与 这 


些 账 户 的 交易 。 同 时 ， 这 三 个 内 部 账户 都 与 外 部 账户 XYZ001 
可 能 意味 着 她 与 钱 又 交易 存在 着 密切 联系 。 


一 
xx 四 


和 六。 


也 许 你 还 记得 ，XYZ001 是 最 初 开 始 调 查 的 账户 ， 因 为 它 涉嫌 了 钱 双 活 动 。 亚 历 山大 在 所 有 这 些 交 易 中 存 在 的 事实 


另外 一 方面 ， 亚 历 山大 的 下 属 萨 拉 在 2016 年 和 亚历山大 的 账户 发 生 了 两 笔 交 易 ， 如 图 7-43 所 示 。 
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图 7-43 ”了 萨 拉 与 亚历山大 的 交易 
点 击 Sarah Watson 节 点 ， 展 开 2 级 关联 ， 让 我 们 来 看 一 下 萨 拉 是 否 也 参与 了 这 些 可 疑 活动 。 需 要 注意 的 是 ， 萨 拉 现 在 是 一 个 普通 员工 ， 经 手 的 交易 较 多 ， 故 而 产生 的 实体 关联 较 
多 了 短暂 等 待 后 生成 如 图 7-44 所 示 图 形 。 
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图 7-44 萨 拉 节 点 的 二 级 关联 


工具 | 对 象 检查 局 ~ 》 


选择 一 个 对 油 来 查看 详细 信息 . 


可 以 看 到 以 萨 拉 为 中 心 形成 了 9 个 大 型 艇 (cluster) ， 每 个 艇 中心 是 银行 交易 账户 ， 环 绕 账户 的 是 成 百 上 干 的 交易 。 在 现实 金融 活动 中 ， 无 法 逐一 查看 每 个 交易 活动 ， 取 而 代 之 的 
点 击 “ 选 择 一 对 象 类 型 一 交易 ”， 并 选择 “对 象 一 隐藏 节点 ”， 得 到 一 个 


是 观察 那些 生成 警报 信息 的 交易 ， 


为 了 避免 让 过 多 的 交易 干扰 调查 员 对 了 萨 拉 行 为 的 探索 ， 可 以 隐藏 这 些 交 易 : 
更 加 简洁 的 以 萨 拉 为 中 心 的 网 络 图 ， 选 择 右面 板 的 工具 中 的 网 络 属性 ， 将 布局 应 用 于 全 部 节点 并 取消 时 间 滑 块 ， 得 到 图 7-45。 
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图 7-45 ”精简 后 的 网 络 图 


从 图 7-45 中 可 以 看 到 了 萨 拉 的 9 个 银行 交易 账户 都 有 和 警报 与 之 关联 ， 可 以 逐一 检查 这 些 警 报 。 点 击 其 中 一 条 Alert_31401525 和 警报 并 打开 。 可 以 看 到 萨 拉 负 责 的 其 中 一 个 账户 在 过 去 5 
天 内 的 5 次 取款 超过 $20,000， 如 图 7-46 所 示 。 
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图 7-46” 某 一 账户 的 取款 记录 


如 果 打 开 与 萨 拉 绑 定 的 任何 其 他 警报 ， 会 注意 到 不 同 的 账户 都 显示 相同 的 内 容 : 有 的 账户 在 过 去 5 天 10 次 存款 超过 了 $20000。 不 论 如 何 ， 萨 拉 的 这 9 个 银行 账户 在 短 时 间 内 发 生 了 
多 笔 大 额 取款 。 


如 果 进 一 步 观察 网 络 图 ， 可 以 发 现 萨 拉 曾 有 且 仅 有 一 笔 向 Bil Watson 的 贷款 ， 考 虑 到 他 们 共同 有 一 个 姓氏 ， 可 能 存在 家 族 内 部 的 交易 活动 ， 如 图 7-47 所 示 。 
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图 7-47 可 能 存在 的 家 族 内 部 交易 
综合 之 上 对 萨 拉 的 9 个 账户 的 交易 警报 记录 ， 在 这 一 时 刻 上 ， 作 为 调查 员 ， 你 可 以 有 充分 的 理由 得 出 结论 ， 萨 拉 和 她 的 上 级 亚历山大 可 能 一 同 参与 了 这 些 钱 骤 活 动 。 


可 以 将 新 编辑 结果 网 络 图 生成 洞察 结果 ， 并 辅 以 充分 的 文字 描述 ， 以 PDF 格式 保存 并 发 送 至 更 高 管理 层 进行 审阅 ， 如 图 7-48 所 示 。 
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我 们 可 以 看 到 ， 从 她 入 职 到 2010 年 ， 她 的 帐户 中 只 发 生 了 很 少 的 交易 。 在 这 段 时 间 里 唯一 值得 注意 的 事 是 在 2005 年 ， 一 个 名 为 sarah Watson 的 员工 成 为 如 的 直接 报告 对 象 

在 2012 年 和 201s 年 ， 我 们 注意 到 在 网 络 图 由， 一些 帐户 陆 缤 连接 上 了 亚历山大 。 可 疑 的 是 ， 一 个 名 为 oven nderson 的 人 在 银行 创建 了 一 个 幅 户 ,并 且 由 于 某 种 原因 ， 届 的 手机 号 码 与 亚历山大 在 修改 时 数据 库 地 址 之 前 注册 的 移动 号 码 相 匹 配 。 仅 赁 这 些 证 据 就 需要 进行 彻底 的 调查 。 

在 2016 年 ,我 们 看 到 亚历山大 在 浏览 年 长 ， 外 国 和 高 净值 帐户 时 发 现 cC101，s0c461 和 acc222。 我 们 看 到 亚历山大 在 此 后 不 久 便 保 成 并 经 手 了 与 这 些 账 户 的 交易 。[ 桔 十， 我 们 也 看 到 这 三 个 内 部 账户 部 与 外 部 账户 xY2001 交 易 。XY2001 是 我 们 最 初 开 始 调查 的 帐户 ， 因 为 它 涉嫌 钱 声 活动 。 亚历山大 


在 所 有 这 些 交 易 存 在 的 事实 可 能 意味 着 她 与 钱 曾 交易 存在 着 密切 联系 。 
另外 一 方面 亚 历 山 A 的 下 属 5ar ah atzscon 在 2016 年 和 亚 历 山 的 账户 岩 生 『 两 第 交易 


至 此 ， 我 们 完成 了 来 自 于 SAS Visual Scenario Designer 的 警报 处 理 ， 并 对 亚历山大 参与 钱 骤 活 动 进行 了 详细 的 调查 。 


7.5 SAS Visual Investigator 在 法 律 、 政 府 和 社会 管理 方面 的 应 用 


除了 上 述 两 节 介绍 的 应 用 场景 之 外 ，SAS Visual Investigator 同 样 可 以 在 预防 犯罪 ， 监 控 毒 品 和 虐待 儿童 方面 发 挥 作 用 : 通过 可 视 化 调查 员 对 可 疑 人 员 和 行为 进行 调查 并 发 现 隐 合 
的 模式 和 趋势 ， 找 出 应 对 方法 并 进行 提前 干预 。 


例如 ， 在 美国 佛蒙特 州 ， 由 政府 代为 保护 的 儿童 人 数 在 两 年 内 上 升 了 40%， 而 在 此 其 中 809 涉 及 阿片 类 药物 滥用 案件 ， 而 马萨诸塞 州 则 在 半年 内 收 到 超过 3000 例 婴儿 被 动 接触 毒 
品 的 出 生 报 告 。 通 过 Visual Investigator 分 析 毒 品 购买 者 、 贩 运 者 、 处 方药 使 用 者 、 提 供 者 和 犯罪 记录 网 络 可 确定 这 些 可 疑 行 为 ， 并 向 相关 部 门人 员 发 送 详细 警报 。 


本 章 讲述 了 如 何 使 用 SAS Visual Investigator， 通 过 分 析 风 险 评分 报告 并 产生 警报 信息 ， 从 而 进行 反 虐 待 儿童 保护 的 一 个 例子 。 需 要 注意 的 是 ，Visual Investigator 并 非 要 直接 蔡 
换 SAS Enterprise Case Management 系 统 ， 而 是 作为 信息 门户 ， 将 来 自 ECM 或 者 其 他 个 案 管 理 系统 的 数据 进行 汇总 ， 可 视 化 展示 和 调查 ， 并 进行 分 析 和 挖掘 ， 从 而 发 现 风 险 ， 拷 出 
可 疑 的 人 或 者 行为 ， 最 终 进行 干预 和 相关 的 决策 。 


7.5.1 基于 ; 忌 报 告 评估 风险 


如 图 7-49 所 示 ， 登 录 SAs Visual Investigator， 打 开 和 警报 管理 页 面 ， 可 以 看 到 当前 被 触发 的 警报 列表 已 经 按照 评分 高 低 排序 好 ， 常 用 信息 包括 评分 、Case ID 和 简要 描述 等 列 。 在 
图 7-49 中 ， 有 一 个 分 数 为 98 的 高 风险 警报 : 通过 Case ID， 用 户 可 以 在 个 案 管理 系统 中 找到 对 应 个 案 的 完整 信息 。 当 然 SAs Visual Investigator 已 经 提供 了 足够 的 维度 信息 供 调查 者 进 
行 分 析 。 
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图 7-49 ”警报 管理 页 面 


在 左下 评分 卡 面板 中 ， 系 统 给 出 了 6 个 维度 的 柱状 评分 信息 ， 包 括 报告 历史 、 受 害 人 口 数 等 ， 评 分 信息 是 在 其 他 系统 (例如 SAS Enterprise Miner) 或 通过 程序 运算 得 出 的 ，SAS 
Visual Investigator 并 不 参与 该 运算 过 程 。 


如 图 7-50 所 示 ， 在 底部 的 个 人 信息 面板 ,显示 了 嫌疑 人 和 受害 者 的 性 别 ， 年 龄 和 风险 评分 的 数值 ， 在 受害 人 表格 ， 可 以 看 出 Gibbs 家 庭 的 5 岁 龄 和 2 月 龄 的 子女 被 举报 受到 虐待 。 底 
部 的 右 下 网 络 关 系 图 面板 显示 了 嫌疑 人 和 受害 者 的 联系 ， 在 此 例 中 他 们 是 通过 同一 家 庭 住址 产生 关联 的 。 


双击 评分 卡 表 格 中 最 高 分 行 ， 可 以 展示 由 该 警报 产生 的 全 部 信息 。 调 查 员 通过 风险 详 述 面板 可 以 看 到 该 条 风险 的 级 别 以 及 成 因 : 该 风险 主要 是 由 复杂 的 报告 历史 和 受害 者 人 口 两 个 
维度 驱动 产生 。 在 风险 详 述 面板 的 右边 给 出 了 每 一 维度 的 释义 。 例 如 ， 报 告 历史 维度 主要 指 的 是 和 该 报告 相关 联 的 更 早报 告 的 数量 ， 数 量 高 则 表示 嫌疑 人 继续 进行 虐待 的 风险 较 高 。 


点 击 切 换 时 间 轴 标签 页 ， 按 照 时 间 先 后 和 人 物 角 色 展 示 了 从 1998 年 全 2016 年 的 全 部 报告 ， 如 图 7-51 所 示 。 从 图 中 看 出 ， 正 是 由 于 第 15 条 报告 触 友 了 该 条 警报 ， 鼠 标 滑 过 该 报告 三 
角 图 标 时 显示 ， 该 父母 在 2016 年 9 月 25 日 被 举报 伤害 儿童 。 底 部 的 各 色 图 标 指明 了 报告 中 出 现 人 物 的 角色 和 与 孩子 的 关系 。 
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图 7-50 ”个 人 信息 面板 


SAS@ Visual Investigator - Alert @@ videmo 
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图 7-51 触发 警报 的 报告 


如 图 7-52 所 示 ， 同 时 可 以 看 出 从 2011 年 到 2016 年 ， 名 为 Gayle Gibbs 的 杀 属 先是 代为 领养 之 后 直接 收养 了 前 文 提 到 的 受到 虐待 的 名 为 Roxanne Gibbs 的 女孩 。 顺 着 时 间 轴 向 前 追 
滴 ， 看 到 在 2006 年 ， 作 为 受害 儿童 母亲 的 Dora Gibbs 同 样 也 是 受害 者 : 她 的 孩子 被 举报 曾 被 托儿所 的 照料 者 拉扯 。 这 条 报告 也 是 之 前 评分 卡 中 第 五 项 嫌疑 人 (也 是 受害 
者 ，Perpetrator as Victim) 得 分 较 高 的 原因 。 


除了 使 用 鼠标 提示 信息 外 ， 可 以 点 击 图 7-53 中 红 框 所 示 的 详细 表格 栏 ， 将 展示 在 该 时 间 点 或 时 间 区 间 内 发 生 的 全 部 事件 。 


可 以 想象 ， 如 果 不 使 用 时 间 轴 图 去 展现 各 人 物 在 相关 事件 中 的 关系 ， 将 很 难 理 清 一 系 列 事件 的 来 龙 去 脉 和 事件 的 发 展 趋势 。 这 也 正 是 SAS Visual Investigator 作 为 可 视 化 调查 软件 
进行 事件 分 析 的 一 大 优势 。 
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图 7-52 ”Roxanme Gibbs 的 信息 


SASe@ Visual Investigator - Alert 
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图 7-53 ”详细 表格 栏 〈( 附 彩 图 ) 
接 下 来 ， 调 查 员 可 以 在 时 间 轴 表格 的 首 列 点 击 感 兴趣 的 人 物 ， 进 入 人 物 信息 汇总 页 面 。 例 如 点 击 孩子 母亲 Dora Gibbs， 进 入 如 图 7-54 所 示 页 面 。 


在 图 7-54 中 ， 调 查 员 可 以 看 到 该 人 的 性 别 、 出 生日 期 、 照 片 、 居 住地 址 和 在 地 图 中 的 位 置 等 详细 信息 。 右 边 面板 的 实体 解析 (Entity Resolution) 表格 展示 了 和 该 人 信息 匹配 
的 ， 来 自 多 个 信息 系统 的 记录 。 在 此 例 中 ， 通 过 引入 SACWIS (全 州 自动 儿童 福利 信息 系统 ) 和 CJLeads (刑事 司法 执法 自动 化 数据 服务 ) 数据 源 ， 可 以 查看 并 追溯 每 一 个 嫌疑 人 和 受 
害 者 在 多 个 信息 系统 中 的 历史 。 


图 中 的 Dora Gibbs 在 SACWIS 系 统 以 正式 名 和 别名 分 别 对 应 了 7 条 和 3 条 历史 记录 。 通 过 Person 1D 可 以 从 源 数据 系统 中 ， 根 据 该 人 的 主键 值得 到 一 系列 的 记录 。 匹 配 类 型 和 匹配 程 


度 则 根据 不 同 的 维度 相似 度 给 出 分 数 作为 参考 ， 以 便 确 认 是 否 是 该 人 ， 有 无 偏差 。 


AE 口 和 E 


本 节 展 示 了 个 案 调 查 员 如 何 使 用 SAS Visual Investigator 获 取 所 有 嫌疑 人 和 受害 者 的 相关 信息 ， 从 风险 评分 和 关联 实体 开始 ， 使 用 时 间 轴 表格 ,显示 儿童 在 该 家 族 系统 的 完整 历 
史 ， 并 详细 了 解 了 嫌疑 人 的 身份 信息 、 动 机 ， 以 便 对 处 于 危险 中 的 孩子 做 出 最 佳 决策 。 
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图 7-54 ”Dora Gibbs 个 人 信息 汇总 页 面 


7.5.2 持续 的 个 案 监控 
在 本 节 中 ， 将 从 一 封 自动 警报 邮件 出 发 ， 了 解 个 案 调 查 员 如 何 使 用 SAs Visual Investigator 快 速 跟踪 先前 的 个 案 ， 并 进行 持续 监控 。 


SAS Visual Investigator 可 以 以 邮件 、 手 机 短 消息 和 API 方 式 告 知 调查 员 个 人 实体 的 相关 信息 发 生变 化 (如 居住 地 迁移 ) ， 或 某 实体 (嫌疑 人 或 受害 人 ) 产生 新 的 个 案 ， 被 触 友 并 
录入 系统 。 例 如 ， 在 图 7-55 中 ， 调 查 员 收 到 了 一 封 邮件 。 


可 口 村 时 := 
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ALERT! INMATE RELEASE MAY AFFECT CASE 352312 


In MCase Manager 


New Information pertinent to 
case 552312 (GiIbbs, D.) has 
been detected by the Jall 
and Bookings mMonitoring 
system. 


Click here to Investigate. 





图 7-55 ”通知 邮件 


点 击 链接 ， 浏 览 器 会 直接 定向 到 该 条 警报 信息 总 览 页 面 (在 此 不 再 展示 该 页 面 ) 。 点 击 时 间 轴 表格 标签 ， 调 查 员 可 以 看 到 在 2016 年 12 月 18 日 之 前 Dora 和 Roxanne 生 活 在 一 起 ,在 
当天 一 个 名 为 John Porter 的 男性 带 着 Dora 的 另 一 个 孩子 Duane 搬 进 了 Dora 的 住处 。 如 果 我 们 关注 John 的 历史 ， 可 以 发 现 他 在 2001 年 到 2008 年 期 间 有 过 数 次 犯罪 记录 。 点 击 图 7-56 
红 框 中 的 实体 二 级 网 络 ， 展 示 了 John Porter 家 族 关 于 儿童 受害 的 详细 记录 。 


调查 员 有 充分 的 理由 相信 ， 有 过 数 次 犯罪 记录 的 John Porter 搬 进 Dora 的 住处 ， 将 可 能 产生 新 的 儿童 问题 ， 有 必要 进行 适当 的 干预 。 
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图 7-56 ”John Pottet 家 族 关于 儿童 受害 的 详细 记录 


双击 时 间 轴 表格 首 列 的 John Porter， 将 会 进入 他 的 个 人 资料 汇总 ， 如 图 7-57 所 示 。 
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图 7-57 John Portet 的 个 人 资料 汇总 


如 图 7-58 所 示 ， 在 风险 历史 标签 页 ， 调 查 员 看 到 从 2001 年 到 2016 年 ，John 的 风险 评分 由 于 犯罪 记录 有 过 两 次 较 大 的 波动 ， 而 最 新 的 2016 年 年 底 的 99 分 指示 调查 员 需 要 对 John 的 
子女 进行 必要 的 干预 和 保护 。 
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在 家 庭 天 系 标签 页 ， 通 过 肖像 图 、 


SAS® Visual Investigator - Person 


连 线 和 自 上 至 下 的 层级 清楚 


图 7-58 ”John Portet 的 风险 评分 


地 表明 了 John 的 家 庭 成 员 与 成 员 间 的 相互 关系 ， 如 图 7-59 所 示 。 
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调查 员 可 以 点 击 和 个 人 信息 汇总 平 级 的 CJLeads 标 签 页 ， 通 
这 些 信息 帮助 调查 员 和 社区 工作 者 有 善 的 准备 面对面 访问 。 由 于 CJLeads 信 息 数据 源 的 引入 ， 调 查 员 可 以 在 面对面 访问 之 前 ， 申 请 额外 的 警力 资源 以 提供 安 


法 庭 记 录 、 监 狱 等 记录 。 


保障 。 


忆 之 ， 当 点 击 新 的 自动 警报 邮件 后 ， 


的 决策 ， 以 帮助 相关 子女 处 在 安全 的 环境 中 。 


最 后 ， 点 击 工作 区 展开 网 络 关系 图 ， 看 看 调查 员 如 何 通 


图 7-59 ”John 的 家 庭 成 员 


过 在 SAS Visual Investigator 内 嵌 门 户 网 页 的 方式 展示 了 John 在 刑事 司法 执法 自动 化 数据 服务 系统 中 的 详细 信息 ， 包 括 


过 SAS Visual Investigator， 调 查 员 可 以 探查 到 关于 该 个 人 实体 的 历史 追踪 和 辅助 信息 ， 这 些 信息 足以 帮助 调查 员 进 行 实时 响应 和 做 出 合理 


甬 过 网 络 和 地 图 可 视 化 进行 重要 信息 的 筛选 ， 如 图 7-60 所 示 。 
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图 7-60 ”网络 信息 图 


在 图 7-60 中 ， 可 以 看 到 由 Dora 住 宅 出 发 构建 的 网 络 ， 可 以 看 到 John Porter 图 标 左 上 的 数字 表示 和 他 相关 的 有 26 个 不 同 实体 入 口 。 调 查 员 可 以 点 击 John Porter 图 标 ， 并 选择 展开 
二 级 网 络 ， 形 成 如 图 7-61 所 示 的 详细 网 络 图 ， 可 以 追查 John 在 先前 的 一 系列 行为 历史 。 


在 图 7-61 中 ， 可 以 看 到 作为 加 害 者 (紫红 色 头 像 图 标 ) John Porter 有 过 4 次 虐待 儿童 的 行为 ， 作 为 照料 者 (灰色 头像 图 标 ) 有 过 2 次 报告 。 


主页 。 警 控 。 提 索 和 DoraGibbs x BJohnPorter x BDuaneGibbs x [|AaAer 





图 7-61 


展开 John Pottet 的 二 级 网 络 ( 附 彩 图 ) 
点 击 左 上 角 网 络 视图 菜单 选项 ， 并 切换 到 地 图 视图 。 在 该 视图 中 调查 员 可 以 看 到 John Porter 的 当前 居住 地 址 、 历 史 居 住地 址 等 信息 ， 这 些 位 置信 息 如 果 彼 此 相近 ， 或 者 和 相关 案 
件 的 家 庭 住址 处 于 同一 公寓 大 楼 或 街区 时 ， 将 会 对 调查 员 的 分 析 工 作 提 供 很 大 线索 和 帮助 。 


在 本 节 ， 我 们 已 经 了 解 了 SAs Visual Investigator 通 过 展示 全 面 和 丰富 的 信息 ， 帮 助 调查 员 有 效 ， 快 速 并 持续 地 根据 最 新 警报 邮件 发 现 天 键 的 变化 ， 并 做 出 最 佳 决 定 ， 保 护 其 管辖 
下 的 有 可 能 受到 威胁 的 儿童 。 


7.6 “本章 小 结 


本 章 中 以 不 同行 业 的 三 个 例子 分 别 详 述 了 如 何 使 用 SAS Visual Investigator 进 行 组 织 内 的 合 规 ， 反 欺诈 /洗钱 调查 ， 和 其 在 法 律 、 政 府 和 社会 领域 可 以 发 挥 的 作用 。 


台 ， 整 合 包括 警报 信息 在 内 的 不 同 数据 源 ， 为 多 个 行业 (例如 内 部 欺诈 、 合 规 、 金 融 服 务 和 医疗 保健 等 ) 的 客 


正如 本 章 开 头 所 述 ，SAS Visual Investigator 是 一 个 基于 云 的 管理 平 
户 提供 了 交互 式 视 觉 界面 ， 以 支持 调查 和 分 析 活 动 。 它 使 大 小 组 织 可 以 管理 端 到 端 流程 ， 进 行 警报 的 分 类 和 针对 特定 警报 展开 的 详细 调查 ， 使 得 管理 层 能 及 时 应 对 这 些 可 疑 活动 。 


第 8 草 ”SA3S 可 视 化 分 析 近 术 的 企业 级 部 署 和 应 用 


SAS 可 视 化 分 析 解 决 方案 是 为 处 理 大 数据 而 设计 的 ， 采 用 了 内 存 处 理 技术 和 灵活 的 部 署 选项 ， 可 以 随 着 数据 和 分 析 需 求 的 增长 轻松 对 系统 进行 扩展 。 它 采用 的 交互 式 Web 管 理 界面 
便于 管理 各 种 信息 资源 ， 以 及 用 户 的 身份 认证 和 访问 授权 等 。 对 多 种 数据 源 支 持 (包括 SAP HANA、Oracle、Pivotal HD、Cloudera Hadoop、IBM Netezza、Teradata 等 ) 可 以 实 
现 对 数据 的 快速 并 行 加 载 。 


本 章 主要 介绍 SAS 可 视 化 分 析 解 决 方案 在 现实 应 用 中 的 部 署 方 法 和 系统 及 安全 管理 。 经 过 本 章 的 介绍 ， 读 者 将 会 对 SAS 可 视 化 分 析 的 部 署 有 整体 的 概念 ， 并 且 能 够 掌握 环境 管理 的 
基本 方法 。 


8.1 企业 级 部 署 


SAS 可 视 化 分 析 和 解决 方案 是 基于 内 存 的 SAS 高 性 能 分 析 基 础 架构 的 Web 应 用 。SAS LASR 分 析 服 务 器 是 SAs 的 高 性 能 分 析 基 础 架构 的 内 存 分 析 引 警 。 该 服务 器 既 可 以 运行 在 单机 
上 ， 也 可 以 通过 分 布 式 模式 运行 在 服务 器 集群 上 。 在 分 布 式 模式 下 ， 数 据 被 分 布 到 集群 中 的 每 个 节点 上 ， 所 有 服务 器 节点 都 将 参与 分 析 计 算 ， 使 得 集群 的 大 规模 计算 能 力 能 够 执行 庞大 
的 分 析 任 务 。 对 于 小 企业 和 部 门 应 用 ， 可 以 选择 单机 部 署 模式 。 随 着 企业 分 析 需 求 和 数据 的 增长 ， 可 以 扩展 为 分 布 式 部 署 模式 ， 利 用 并 行 处 理 技术 实现 性 能 扩展 。 


接 下 来 我 们 会 详细 介绍 企业 级 部 署 中 架构 的 设计 方案 、 分 布 式 部 署 要 点 、 检 验方 法 和 一 些 配 置 内 容 。 


8.1.1 架构 设计 


在 部 署 SAS 可 视 化 分 析 解 决 方案 前 ,我 们 首先 要 了 解 SAS 可 视 化 分 析 解 决 方案 的 各 种 架构 ， 基 于 对 架构 和 企业 需求 的 理解 ， 方 可 制定 适合 该 企业 的 架构 模式 。 在 设计 架构 时 ， 要 考 
虑 企业 数据 的 提供 方式 ， 业 务 的 发 展 趋势 ， 环 境 的 高 效 性 、 复 用 性 、 安 全 性 、 可 维护 性 、 灵 活性 和 跨 平台 性 等 。 
1. 架 构 定 义 

SAS 可 视 化 分 析 的 基础 架构 包括 SAS 智 能 平台 中 一 些 相关 的 软件 组 件 。 同 时 ，SAS 可 视 化 分 析 安 装 在 SAS 高 性 能 分 析 基 础 架构 中 ， 该 环境 包含 专用 的 硬件 及 SAS 软 件 。 

在 详细 介绍 SAS 可 视 化 分 析 的 两 种 部 署 模式 之 前 ， 先 来 了 解 下 SAS 产 品 的 相关 概念 和 组 件 。 

SAS 智 能 平台 将 SAS 的 数据 处 理 、 基 本 分 析 、 数 据 挖 扬 和 优化 等 众多 功能 和 相关 产品 无 颖 集成 起 来 。 该 平台 由 SAS 服 务 器 、 中 间 层 、 客 户 端 和 数据 源 组 成 。 

* SAS 服 务 器 


SAs 服 务 器 执行 对 数据 的 处 理 和 管理 。 有 多 种 SAS 服 务 器 可 供 选 择 ， 以 便 处 理 不 同 负载 类 型 的 任务 。 来 自 客 户 端的 请 求 会 被 合理 地 分 布 到 各 个 服务 器 ， 以 便 能 够 满足 多 个 客户 端的 
请 求 。SAS 服 务 器 包含 SAS 元 数据 服务 器 ， 以 及 执行 SAS 分 析 和 报表 处 理 的 计算 服务 器 。SAS 计 算 服 务 器 包括 SAS OLAP 服 务 器 、SAS 工 作 区 服务 器 和 SAS 存 储 过 程 服务 器 等 。SAS 元 数 
据 服务 器 提供 对 元 数据 中 心 和 存 储 库 的 访问 ， 并 对 元 数据 进行 统一 集中 管理 ， 这 样 可 以 保证 所 有 用 户 访问 的 信息 一 致 。SAs 工 作 区 服务 器 使 得 SAs 客 户 端 应 用 程序 能 够 将 SAs 代 码 提 和 交 到 
SAs 会 话 中 执行 ， 满 足 客 户 端 请 求 。 


.SAS 中 间 层 


中 间 层 为 SAs 的 Web 应 用 提供 了 可 执行 环境 。SAs 产 品 在 Web 应 用 服务 器 上 运行 ， 并 将 请 求 的 信息 发 送 到 用 户 的 Web 浏 览 器 上 ， 或 从 用 户 的 Web 浏 览 器 上 接受 信息 。 中 间 层 包含 
SAS Web 服 务 器 ，SAS Web 应 用 服务 器 和 SAS Web 基 础 架构 平台 (SAS Web Infrastructure Platform ， 包 含 SAS Content Server 和 其 他 SAS 智 能 平台 体系 架构 中 的 应 用 和 服务 ) 。 


| 


这 


客户 端 为 用 户 提 供 对 数据 和 信息 的 访问 和 管理 。 对 于 大 多 数 信息 消费 者 而 言 ， 可 以 仅 通过 Web 浏 览 器 来 完成 报表 和 分 析 任 务 。 同 时 ，SAS 还 提供 对 移动 设备 的 支持 。 
. 数据 源 


所 有 现 有 的 数据 资产 ， 无 论 是 存储 在 第 三 方 的 数据 库 管理 系统 或 SAs 数 据 集中 ， 还 是 人 存放 在 ERP 系 统 内 ， 以 及 Hadoop 集 群 中 的 数据 ， 都 可 以 被 SAS 智 能 平台 作为 数据 源 整合 到 SAs 
系统 中 使 用 。 


. SAS LASR 分 析 服 务 器 (SAS LASR Analytic Setvet) 


SAS LASR 分 析 服 务 器 是 内 存 分 析 服 务 器 ， 可 为 加 载 到 内 存 中 的 数据 提供 安全 的 多 用 户 并 发 访问 环境 。 该 服务 器 可 以 通过 在 多 个 节点 机 器 之 间 分 布 数据 和 工作 负载 ， 利 用 分 布 式 计 
算 环 境 来 执行 大 规模 并 行 处 理 ， 并 且 可 以 部 署 在 单个 机 器 上 。 加 载 到 LASR 内 存 中 的 数据 一 直 存 在 ， 直 到 用 户 将 他 们 从 内 存 中 御 载 掉 。 用 户 可 以 根据 需要 创建 服务 器 ,并且 多 个 LASR 分 
析 服 务 器 可 以 在 同一 个 SAS Visual Analytics 环 境 中 定义 。 如 果 LASR 分 析 服 务 器 关闭 ， 则 会 丢弃 附加 在 此 服务 器 的 所 有 内 存 数 据 ， 基 于 此 数据 的 报表 和 探索 将 不 可 用 ， 直 到 服务 器 重新 
启动 并 重新 加 载 数据 。LASR 分 析 服 务 器 包含 在 SAS 高 性 能 分 析 环 境 里 。 


* SAS 高 性 能 分 析 环 境 (SAS High-Performance Analytics envitonment) 


SAS 高 性 能 分 析 环 境 是 在 分 析 集 群 中 执行 分 析 计 算 的 环境 。 该 环境 仅 使 用 于 分 布 式 模 式 ， 由 根 节点 和 工作 节点 组 成 ， 机 器 间 通 过 SSH 进 行 通信 。LASR 分 析 服 务 器 就 运行 在 SAS 高 性 
能 分 析 环 境 中 。 


* SAS 高 性 能 计算 管理 控制 台 (SAS High-Performance Computing Management Console) 


SAS 高 性 能 计算 管理 控制 台 是 一 个 Web 应 用 程序 。 该 控制 台 运 行 在 单独 的 Web 服 务 器 上 ， 供 系统 管理 员 管 理 SAAS 的 高 性 能 计算 环境 。 通 过 管理 控制 台 可 以 轻松 配置 无 密码 的 SSH,， 
传播 用 户 账户 和 公 钥 ， 以 及 管理 分 析 集 群 上 的 CPU 和 内 存 资源 。 


Co-located 数据 提供 模式 (Co-located Data Provider) 

Co-located 数 据 提供 模式 是 将 SAS LASR 分 析 服 务 器 集群 部 署 在 数据 源 集 群 上 。 该 部 署 的 一 个 优点 是 可 以 使 用 Hadoop 集 群 以 SAASHDAT 表 的 形式 在 HDFS 中 进行 数据 分 段 。 
` 远程 数据 提供 模式 (Remote Data Providet) 

远程 数据 提供 模式 是 将 SAS LASR 分 析 服 务 器 集群 和 数据 源 集 群 分 别 部 署 在 不 同 机 器 上 。 
. SAS 的 Hadoop 插 件 (SAS Plugins for Hadoop) 


SAS 的 Hadoop 揪 件 是 为 所 支持 的 Co-located 数 据 提供 模式 的 Hadoop 提 供 服务 的 软件 包 。 这 些 服务 使 SAS 高 性 能 分 析 环 境 能 够 在 HDFS 文 件 系 统 上 均衡 写 入 SASHDAT 文 件 块 。 在 
集群 中 所 有 主机 上 的 这 种 均衡 分 布 提供 了 平衡 的 工作 负载 ， 使 SAS 分 析 进 程 以 非常 可 观 的 速度 读 取 SASHDAT 表 。SAS Hadoop 插 件 包 含 在 9.4M4 平 台 的 Visual Analytics 软 件 包 中 ， 是 
SAS 可 视 化 分 析 架 构 的 一 个 可 选 组 件 。 


. SAS/ACCESS 数 据 库 访问 接口 
SAS/ACCESS 数 据 库 访问 接口 是 SAS 访 问 各 种 数据 源 的 接口 ， 可 以 从 数据 源 读 取 和 向 数据 源 系 统 写 入 数据 ， 以 及 在 数据 源 系 统 执 行 必要 的 操作 。 
. SAS 散 入 式 进 程 (SAS Embedded Process， 简 称 EP) 


SAS 启 入 式 进 程 是 一 个 SAS 服 务 器 进程 ， 在 所 支持 的 第 三 方 数 据 库 中 运行 ， 可 以 利用 第 三 方 数 据 源 系统 的 处 理 能 力 读 取 和 写 入 数据 ， 乃 至 在 第 三 方 数据 源 系 统 内 直接 执行 SAS 的 分 
析 任 务 。 


SASHDAT 


SASHDAT 是 SAS 专 有 的 数据 格式 ， 针 对 高 性 能 和 计算 效率 进行 了 优化 ， 可 以 快速 地 加 载 和 御 载 到 内 存 中 。 该 文件 格式 还 利用 了 HDFS 的 见 余 和 高 可 用 性 功能 。SAS 高 性 能 分 析 环 境 
可 以 并 行 读 写 SASHDAT 文 件 。SASHDAT 格 式 只 在 对 称 式 Co-located 数 据 提供 模式 时 有 效 。 


在 理解 了 SAS 产 品 的 相关 组 件 和 概念 后 ， 接 下 来 ， 我 们 开始 分 别 介绍 可 视 化 分 析 解 决 方案 的 两 种 部 署 架构 。 
(1) 非 分 布 式 架构 


在 非 分 布 式 架 构 中 ， 如 图 8-1 所 示 ， 除 了 元 数据 服务 器 和 中 间 层 可 以 分 开 安装 到 单独 的 机 器 上 之 外 ， 以 SAs LASR 分 析 服 务 器 为 核心 的 其 他 所 有 服务 器 组 件 安装 在 同一 台 机 器 上 。 非 
分 布 式 SAS LASR 分 析 服 务 器 可 以 执行 与 分 布 式 SAS LASR 分 析 服 务 器 相同 的 内 存 分 析 操 作 。 但 是 ， 非 分 布 式 SAS LASR 分 析 服 务 器 不 能 并 行 读数 据 ， 也 不 能 将 SASHDAT 文 件 写 入 
HDFS, 
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图 8-1 SAS Visual Analytics 的 非 分 布 式 架构 图 


用 户 与 SAs Visual Analytics 的 主 界面 是 通过 浏览 器 或 iPad/Android 设 备 进行 交互 的 。 浏 览 器 或 者 移动 客户 端 启动 与 中 间 层 通信 后 ， 用 户 在 页 面 中 做 出 选择 ， 请 求 随后 被 发 送 到 
SAS LASR 分 析 服 务 器 ， 执 行 对 内 存 表 的 操作 。 一 旦 SAS LASR 分 析 服 务 器 完成 请 求 ， 结 果 将 返回 到 中 间 层 ， 中 间 层 再 将 结果 发 送 回 浏览 器 。 工 作 区 服务 器 在 此 环境 中 的 主要 角色 是 管 
理 、 启 动 LASR 分 析 服 务 器 ， 以 及 将 表 装 载 到 内 存 中 和 从 内 存 中 删除 表 。 被 加 载 到 内 存 中 的 表 可 以 是 本 地 数据 源 ， 也 可 以 是 远程 服务 器 上 的 数据 源 。 在 许多 情况 下 ， 远 程 服务 器 上 的 数 
据 将 通过 SAS ACCESS3 引 擎 进行 访问 。 元 数据 服务 器 是 用 于 查找 和 维护 部 署 的 许多 方面 的 服务 器 。 通 过 SAS 管 理 控制 台 可 以 访问 元 数据 服务 器 和 所 有 中 间 层 和 服务 器 层 的 元 数据 。 


元 数据 服务 器 可 以 部 署 在 独立 的 单机 或 者 服务 器 集群 中 ， 甚 至 能 够 与 其 他 SAS 解 决 方案 共享 。 该 服务 器 还 可 以 部 署 在 除 SAS 可 视 化 分 析 和 SAS LASR 分 析 服 务 器 支持 的 平台 之 外 的 
其 他 平台 中 ， 除 了 z/OS。 


中 间 层 同样 可 以 部 署 在 独立 的 单机 或 者 服务 器 集群 中 。 如 果 部 署 在 集群 中 ， 集 群 中 各 个 主机 的 操作 系统 必须 是 相同 的 。 从 SAS Visual Analytics 7.3 开 始 ， 中 间 层 不 再 需要 匹配 SAS 
LASR 分 析 服 务 器 的 操作 系统 (例如 ， 中 间 层 在 Windows 上 ， 而 SAS LASR 可 以 在 Linux 上 ， 反 之 亦 然 ) ， 只 要 它 部 署 在 SAs 可 视 化 分 析 和 SAS LASR 分 析 服 务 器 支持 的 操作 系统 中 就 可 
以 。 


(2) 分 布 式 架构 


在 分 布 式 架 构 中 ， 如 图 8-2 所 示 ，SAS LASR 分 析 服 务 器 部 署 在 一 个 集群 的 多 台 机 器 上 。SAS Visual Analytics 服 务 器 、 元 数据 服务 器 和 中 间 层 服务 器 都 可 以 独立 部 署 。 
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图 8-2 ”SAS Visual Analytics 的 分 布 式 架构 图 


分 布 式 SAS LASR 分 析 服 务 器 由 根 节点 和 工作 节点 组 成 ， 如 图 8-3 所 示 。 根 节点 负责 分 配 和 协调 工作 负载 。 工 作 节点 是 从 根 节点 接收 工作 负载 。 比 如 ， 将 表 加 载 到 内 存 中 时 ， 根 节点 
将 数据 分 配给 工作 节点 ， 工 作 节 点 将 这 些 数据 加 载 到 内 存 中 。 如 果 使 用 Co-located 数 据 提 供 模 式 ， 则 每 个 工作 节点 都 将 读 取 本 机 的 数据 。 工 作 节 点 只 对 本 机 内 存 中 加 载 的 数据 执行 分 
析 任 务 ， 然 后 将 结果 返回 到 根 节点 。 有 权 访 问 数据 的 客户 端 应 用 程序 可 以 向 服务 器 发 送 请 求 并 接收 结果 。 加 载 到 内 存 中 的 数据 在 内 存 中 是 无 法 修改 的 ， 但 可 以 将 新 数据 附加 到 LASR 
表 。 一 旦 数据 加 载 到 SAS LASR 分 析 服 务 器 的 内 存 中 ， 数 据 就 一 直 驻 留 在 内 存 中 ， 直 到 数据 御 载 或 SAS LASR 分 析 服 务 器 终止 。 根 节点 和 工作 节点 仅 适 用 于 分 布 式 SAS LASR 分 析 服 务 
器 。SAs LASR 分 析 服 务 器 集群 中 的 每 个 节点 上 都 需要 安装 SAS 软 件 来 实现 消息 传递 接口 (MPI，Message Passing Interface) 。 客 户 端 和 集群 之 间 的 通信 基于 TCP， 但 SAS LASR 分 
析 服 务 器 集群 节点 之 间 的 通信 使 用 标准 MPI 调 用 。 
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图 8-3 ”分 布 式 SAS LASR 分 析 服 务 器 


分 布 式 架构 支持 Co-located 和 远程 数据 提供 模式 。 同 样 ， 从 SAS Visual Analytics7.3 版 本 开始 ， 分 布 式 部 署 中 的 SAs 计 算 服务 器 可 以 单独 部 署 。 该 服务 器 不 需要 与 SAS LASR 节 点 


的 操作 系统 匹配 ， 只 要 它 部 署 在 支持 可 视 化 分 析 和 SAS LASR 分 析 服 务 器 的 操作 系统 上 。 元 数据 服务 器 和 中 间 层 服务 器 ， 与 非 分 布 式 架 构 相 同 。 


根据 计算 发 生 的 位 置 与 数据 存储 的 机 器 是 否 相 同 ， 分 布 式 架构 可 分 为 Co-located 数 据 提供 模式 和 远程 数据 提供 模式 。 远 程 数据 提供 模式 有 两 种 基本 的 数据 传输 选择 : 使 用 
SAS/ACCESS 接 口 串 行 数据 传输 ;使 用 SAS/ACCESS 接 口 结合 SAS 启 入 式 进 程 (EP) 并 行 数据 传输 。Co-located 数 据 提供 模式 能 够 快速 加 载 数据 ， 而 远程 模式 为 客户 提供 了 使 用 现 有 
的 第 三 方 数 据 源 系统 资源 的 机 会 。 在 定义 产品 架构 时 ， 需 要 根据 企业 的 需求 ， 决 定 分 析 集 群 和 数据 存储 的 位 置 。 


根据 SAS 高 性 能 分 析 环 境 节 点 数 和 数据 存储 节点 数 ， 分 布 式 架 构 可 分 对 称 模式 和 非 对 称 模式 。SAS 高 性 能 分 析 环 境 节 点 数 等 于 数据 存储 节点 数 的 称 为 对 称 模式 ; 反之，SAs 高 性 能 
分 析 环 境 节 点 数 不 等 于 数据 存储 节点 数 的 称 为 非 对 称 模式 。 对 称 / 非 对 称 模式 影响 数据 被 加 载 到 内 存 的 时 间 |。 


" Co-located 数 据 提供 模式 


在 Co-located 数 据 提供 模式 的 SAS 高 性 能 分 析 环 境 中 ， 如 图 8-4 所 示 ，SAS LASR 分 析 服 务 器 部 署 在 数据 源 系 统 上 。 该 模式 只 支持 Hadoop 数 据 源 。 在 Co-located 数 据 提供 模式 
下 ，SAS 高 性 能 分 析 基 础 架构 支持 的 Hadoop 版 本 有 Apache、Cloudera CDH、Hortonworks HDP、IBM InfoSphere Biglnsights、MapR distribution、Pivotal HD 分 布 式 
Hadoop。 


在 该 模式 中 ，SAS LASR 分 析 服 务 器 的 根 节点 部 署 在 Hadoop 的 Name 节 点 上 ， 工 作 节 点 部 署 在 Hadoop 的 Data 节 点 上 。SAS 元 数据 服务 器 、 中 间 层 服务 器 、 计 算 服 务 器 等 通常 部 署 
在 LASR 分 析 服 务 器 的 根 节点 上 。 对 于 有 大 量 工作 节点 的 环境 ， 可 以 将 根 节点 单独 部 署 。 单 独 部 署 的 优点 是 系统 可 以 支持 大 量 的 SAAS 用 户 ， 支 持 大 量 并 发 用 户 对 小 表 的 操作 ， 根 节点 完 
全 专用 于 工作 节点 的 管理 。 缺 点 是 失去 一 个 并 行 计算 的 节点 。 在 这 种 模式 中 ， 不 需要 配置 SAS/ACCESS 接 口 和 SAS 调 入 式 进 程 。 


.远程 数据 提供 模式 


使 用 远程 数据 提供 模式 运行 SAS 高 性 能 分 析 环 境 允 许 客户 将 其 数据 源 系 统 与 SAS LASR 分 析 服 务 器 所 在 的 分 析 集 群 分 离 。 安 装 在 数据 源 系 统 上 的 SAS 褒 入 式 进程 用 于 在 数据 源 系统 
和 处 理 数据 的 分 析 环 境 之 间 提 供 高 速 并 行 数据 传输 。 在 远程 数据 提供 模式 下 ，SAS 馈 入 式 进程 支持 Aster、DB2、Greenplum、Hadoop、Oracle、SAP HANA 和 Teradata。 
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图 8-4 ”分 布 式 架构 的 Co-located 数 据 提 供 模 式 


远程 数据 串 行 连接 是 通过 使 用 SAS/ACCESS 接 口 实现 的 ， 如 图 8-5 所 示 。 这 种 使 用 串 行 |/O 负 载 将 数据 加 载 到 内 存 的 方式 可 以 加 载 SAAS 可 访问 的 任何 数据 。 
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图 8-5 分布 式 架构 的 远程 数据 囊 行 传输 


远程 数据 并 行 连接 是 SAS/ACCESS 接 口 和 SAS 府 入 式 进程 (EP) 一 起 提供 的 高 速 的 并 行 连接 ， 将 远程 数据 源 传输 到 分 析 集 群 的 内 存 中 。 图 8-6 展 示 了 分 析 集 群 对 远程 数据 存储 的 并 


行 连接 。 
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图 8-6 ”分 布 式 架 构 的 远程 数据 并 行 传输 























远程 数据 提供 模式 可 以 实现 现 有 数据 库 的 重用 。SAS 局 入 式 进 程 安装 到 数据 库 系 统 上 ， 数 据 库 直 接连 接 到 分 析 和 集群 ， 这 时 网 络 配 置 是 成 功 实施 的 关键 。 在 决定 加 载 数据 到 内 存 的 方 


法 时 ， 架 构 是 否 对 称 和 数据 提供 方式 (Co-located 或 者 远程 ) 是 我 们 在 定义 架构 时 要 考虑 的 。 


2. 架 构 规划 


在 对 架构 进行 规划 时 ， 首 先 要 考虑 系统 规模 的 大 小 ， 确 定 符合 实际 数据 量 大 小 和 用 户 需 求 的 系统 规模 。 如 果 数 据 量 非常 小 ， 


非 分 布 式 架构 就 可 以 满足 需求 。 如 果 业 务 需求 复杂 ， 数 


据 量 大 ， 就 要 部 署 分 布 式 架构 ， 并 有 目 要 权衡 部 署 几 个 节点 ， 每 个 节点 硬件 资源 配置 多 大 。 以 SAS Visual Analytics 为 例 ， 在 规划 架构 时 ， 要 清楚 了 解 表 8-1、 表 8-2 和 表 8-3 的 基本 信 


自 


‘Do 


表 8-1 SAS Visual Analytics 的 最 低 硬 件 配置 


组 件 非 分 布 式 分 布 式 
AN 
年 机 4 台 刀 片 机 或 服务 器 


> 
最 低 配置 CPU 4 核 


内 存 64GB 
网 络 -10GbE 





表 8-2 SAS Visual Analytics 各 服务 器 支持 的 操作 系统 


SAS Visual Analyvtics 7.3 Li 64 
We ii 


SAS 元 数据 服务 天 KE 


SAS Visual Analytics (计算 ) 服务 器 ”是 | 


SAS 非 分 布 式 LASR 分 析 服务 名 是 
SAS 分 布 式 LASR 分 析 服 务 器 


| 


每 台 配 置 CPU-4 核 、 内 存 64GB 
网 络 -10GbE 


支持 其 他 操作 系统 


(AIX, Solaris SPARC 等 ， 除 了 z/OS) 


| 
AE 


相 | 双 | 到 | 玛 


注意 : 元 数据 服务 器 可 以 在 除 z/OS 之 外 的 任何 平台 上 运行 ; 分 布 式 LASR 服 务 器 仅 限 于 Linux。 支 持 的 详细 操作 系统 版 本 信息 ， 请 参阅 SAS 官 方 文档 。 


表 8-3 ”两 种 数据 提供 模式 所 需要 安装 的 组 件 


Co-located 数据 提供 模式 远程 数据 提供 模式 
高 性 能 分 析 环 境 
高 性 能 分 析 环 境 高 性 能 计算 管理 控制 台 
SAS 的 Hadoop 插件 SAS 和 通信 式 进 程 (部 署 到 数据 源 系 统 ) 
局 性 能 计算 管理 控制 台 数据 库 客户 并 软件 
SAS Visual Analytics 解决 方案 SAS/ACCESS 接口 


SAS Visual Analytics 解决 方案 


从 数据 量 和 系统 要 满足 的 业务 需求 角度 ， 规 划 合 理 的 系统 规模 ， 需 要 考虑 以 下 因素 : 
(1) 用 户 的 类 别 和 相应 的 用 户 数 


我 们 可 以 把 用 户 分 为 轻 量 级 用 户 和 重量 级 用 户 。 重 量 级 用 户 执 行 的 操作 会 需要 较 大 的 计算 量 ， 包 括 : SAS 可 视 化 分 析 探 索 、 多 个 变量 的 相关 分 析 、4 个 或 更 多 测量 的 箱 线 图 、 
Crosstabs 每 个 有 4 个 或 更 多 的 类 变量 。 轻 量 级 用 户 执行 的 操作 相对 而 言 对 系统 资源 的 要 求 较 少 ， 包 括 : 具有 一 个 或 两 个 类 变量 和 最 多 五 个 测量 的 单线 图 、 箱 图 、 气 泡 图 、 热 图 、 地 理 
地 图 和 浏览 报表 。 


(2) SAS Visual Analytics 环 境 中 将 使 用 的 数据 大 小 


数据 大 小 包括 存储 在 数据 源 系统 中 的 总 数据 量 ， 加 载 到 SAS LASR 分 析 服 务 器 内 存 中 的 总 数据 量 和 使 用 的 最 大 数据 表 的 大 小 。 在 少数 用 户 处 理 非常 大 的 表 并 且 大 多 数 用 户 都 是 处 理 
普通 表 的 情况 下 ， 最 好 能 够 分 别提 供 处 理 大 表 和 普通 表 的 重量 级 和 轻 量 级 用 户 数量 。 因 为 差异 大 的 表 会 导致 对 CPU 核 数 的 需求 有 显著 的 变化 。 


(3) 并 上 友 会 话 数量 


并 发 会 话 是 指 在 同一 时 间 执 行 的 SAS 作 业 或 请 求 ， 它 们 使 用 相同 的 硬件 资源 。 例 如 ， 如 果 总 会 话 数 为 100， 并 且 最 多 有 10% 的 会 话 同时 使 用 解决 方案 的 资源 ， 则 并 发 会 话 数量 的 值 
为 10。 需 要 注意 的 是 ， 高 级 SAS 程 序 员 或 SAS 分 析 用 户 会 有 多 个 会 话 。 例 如 ， 一 个 分 析 人 员 可 能 同时 有 四 个 会 话 执 行 ， 因 此 ， 此 用 户 的 并 发 会 话 为 四 个 ， 这 可 能 会 导致 并 发 会 话 数量 大 
于 总 用 户 数量 。 


(4) 预期 响应 时 间 


客户 对 分 析 结 果 的 预期 响应 时 间 。 要 求 的 系统 响应 越 短 ， 对 硬件 资源 的 配置 要 求 就 越 高 。 需 要 综合 考虑 业务 需求 、 资 源 成 本 和 实际 可 行 的 响应 时 间 。 例 如 ，10 个 并 发 用 户 同时 分 
析 一 个 10GB 的 表 ， 如 果 期 望 响应 时 间 是 15 秒 ， 可 能 需要 12 核 CPU 才能 完成 ; 如 果 期 望 响 应 时 间 是 30 秒 ， 可 能 5 核 CPU 就 可 以 完成 。 


(5) 当前 的 业务 需求 、 未 来 的 业务 规划 和 增长 

需要 根据 历史 数据 和 业务 发 展 趋势 ， 佑 算出 数据 量 和 并 发 会 话 数 的 平均 年 增长 率 。 如 果 没 有 可 参考 数据 ， 不 妨 假设 年 增长 都 为 10%。 
(6) 定义 好 的 SAs 产 品 的 架构 

需要 根据 前 面 提 到 的 ?个 方面 ， 来 确定 具体 的 架构 ， 是 单机 模式 还 是 分 布 模式 。 

表 8-4 和 表 8-5 列 举 了 SAs Visual Analytics 的 规划 样本 ， 它 们 都 是 最 常用 的 配置 方案 。 


表 8-4 非 分 布 式 的 规划 样本 


CPU 核 数 可 以 处 理 的 单个 最 大 表 系统 可 以 处 理 的 最 大 数据 量 


表 8-5 分布 式 的 规划 样本 


服务 器 台数 | ”CPU 总 核 数 可 以 处 理 的 单个 最 大 表 | 系统 可 以 处 理 的 最 大 数据 量 


假设 要 购买 SAS Visual Analytics 7.3 产 品 ， 供 125 个 注册 用 户 使 用 ,会 有 22 个 并 发 会 话 ， 其 中 2 个 会 话 需 要 处 理 50GB 的 表 ，18 个 会 话 需 要 处 理 15GB 的 表 ， 有 2 个 移动 客户 端 用 
户 ， 加 载 到 内 存 的 数据 总 量 将 是 250GB， 和 存储 在 硬盘 的 数据 量 是 500GB， 服 务 器 部 署 在 Red Hat Enterprise Linux 操 作 系统 上 ， 数 据 期 望 存储 在 Hadoop 文 件 系统 上 。 


基于 这 些 信息 ， 我 们 可 以 确定 ， 这 个 环境 将 是 一 个 Co-located 数 据 提供 模式 的 分 布 式 架构 。 具 体 架 构 规 划 见 表 8-6。 
表 8-6 ”推荐 的 架构 规划 


SAS Visual Analytics 7.3 ( 4 台 服 务 器 ) 


服务 依 # 4 

每 台 服 务 硕 的 CPU 2X0cores Intel Xeon ES-2643v4 processors (3.4 GHz) 
CPU 总 核 数 48 

内 存 时 钟 速度 2400 MHz 

每 个 慷 扩 内存 192 GB 

操作 系统 Red Hat Enterprise Linux 6.4 or higher, 64-bit 

NIC 10 GbE 

SAS 版 本 号 9.4 

每 个 节点 磁盘 2 x 600 GB 10K RPM 


对 于 此 配置 ，1 台 服务 器 (CPU-12 核 ) 作为 根 节点 专用 于 管理 ，3 台 服务 器 (CPU-36 核 ) 作为 工作 节点 用 于 支持 估计 的 工作 负载 ， 能 够 为 最 终 用 户 提供 大 约 400 GB 可 用 的 分 析 服 
务 器 内 存 和 大 约 1.3 TB 可 用 的 磁盘 存储 。 该 配置 是 基于 用 户 响应 时 间 小 于 等 于 15 秒 。 如 果 所 有 用 户 同时 执行 任务 ， 则 性 能 有 可 能 会 下 降 。SAs Visual Analytics 7.3 的 某 些 功能 (如 文 
本 和 压缩 ) 也 会 影响 系统 性 能 。 


此 资源 规划 不 涉及 用 于 SAs Visual Analytics 服 务 器 之 外 的 用 于 ETL 和 数据 管理 的 资源 ， 以 及 将 数据 导入 SAs Visual Analytics 的 资源 。 同 时 ， 假 定 HDFSs 对 数据 集 只 做 一 个 副本 ， 
而 不 是 两 个 。 例 如 ，100 GB 的 数据 ， 在 一 个 副本 的 配置 下， 在 Hadoop 里 实际 存储 占用 200 GB; 在 两 个 副本 的 配置 下， 在 Hadoop 里 实际 存储 占用 300 GB。SAS 默 认 设 置 为 一 个 副 
本 ， 但 最 终 用 户 可 以 根据 自己 的 需求 进行 更 改 。 


每 台 服 务 器 使 用 Intel Xeon 处 理 器 、192 GB 的 内 存 和 2 x 600 GB 的 磁盘 存储 。 这 是 一 个 标准 SAS Visual Analytics 的 商用 服务 器 配置 ， 也 可 以 使 用 其 他 服务 器 ， 只 要 它们 满足 上 面 
列 出 的 最 低 配 置 。 


资源 规划 时 要 注意 : 


SAS Visual Analytics 需 要 硬件 支持 当前 Intel Xeon v2、v3 或 v4 处 理 器 ， 最 低 时 钟 速度 为 2.6GHz， 最 低 内 存 速 度 为 1600MHz 和 10K RPM 磁 衣 驱 动 器 。 采 用 不 满足 这 些 最 低 要 求 的 架构 将 
导致 最 终 用 户 的 性 能 下 降 。 


SAS Visual Analytics 通 常 要 求 每 个 CPU 内 核 至 少 有 16 GB 的 内 存 。 
服务 器 电源 设置 需要 设置 为 最 大 ， 而 不 是 出 厂 设 置 。 
建议 对 所 有 生产 环境 的 CPU 使 用 超 线程 。 


假设 所 有 数据 都 是 未 压缩 数据 。 如 果 使 用 压缩 数据 ， 系 统 将 消耗 额外 的 资源 来 解压 缩 。 


3. 数 据 存储 


数据 可 以 存储 在 服务 器 本 地 的 磁盘 里 ， 也 可 以 存储 在 远程 的 存储 设备 里 。SAS 推 荐 使 用 本 地 直 连 式 存储 (DAS) 。 在 分 布 式 模式 下 ，SAS 推 荐 使 用 Hadoop 的 Co-located 数 据 提供 
模式 ， 如 图 8-7 所 示 ， 因 为 可 以 将 数据 快速 加 载 到 内 存 ， 不 受 网 络 限制 。 在 这 种 架构 里 ，HDFS 数 据 节点 直 连 存储 设备 ， 不 在 机 器 集群 上 共享 。 使 用 外 部 磁盘 阵列 作为 Hadoop 集 群 的 主 
要 存储 ， 可 以 保留 DAS 的 无 共享 和 数据 局 部 性 特征 。 典 型 的 磁盘 阵列 可 以 配置 为 多 个 卷 的 DAS， 它 们 都 位 于 同一 个 阵列 中 。 每 个 节点 都 有 自己 的 非 共享 磁盘 集 。 
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图 8-7 本 地 直 连 式 存 储 


注意 : DAS 即 直 连 存储 ， 英 文 全 称 是 Direct Attached Storage。 存储 设备 与 服务 器 主机 之 间 的 连接 通常 采用 SCSI 连 接 ,，I/O (输入 /输出 ) 请 求 直 接 发 送 到 存储 设备 。 它 依赖 服务 器 主 
机 操作 系统 进行 数据 的 读 写 和 存储 维护 管理 ， 其 本 身 是 硬件 的 堆 又 ， 不 带 有 任何 存储 操作 系统 。 


对 于 大 型 分 布 式 环境 ， 内 部 JBOD 是 最 便宜 的 选择 ， 但 是 不 提供 元 余 或 故障 转移 。 而 且 ， 随 着 环境 中 磁盘 数量 的 增加 ， 环 境 遭 受 磁盘 故障 的 几率 也 将 增加 。 通 常 购买 的 服务 器 默认 
规格 都 是 最 小 磁盘 配置 ， 如 果 规 划 更 多 的 存储 将 增加 成 本 。 可 以 根据 实际 情况 ， 平 衡 成 本 和 需求 ， 选 择 适 合 的 服务 器 配置 。 


注意 : JBOD 即 磁盘 猴 ， 英 文 全 称 是 Just a Bunch Of Disks， 是 在 一 个 底板 上 安装 的 带 有 多 个 磁盘 驱动 器 的 存储 设备 。 通 常 又 称 为 Span。 和 RAID 阵 列 不 同 ，JBOD 没 有 前 端 逻 辑 来 管 
理 磁盘 上 的 数据 分 布 ， 相 反 ， 每 个 磁盘 进行 单独 寻 址 ， 作 为 分 开 的 存储 资源 ， 或 者 基于 主机 软件 的 一 部 分 ， 或 者 是 RAID 组 的 一 个 适配器 卡 。 


SAN 人 存储 不 推荐 用 于 Data 节 点 上 的 HDFS 数 据 目 录 。 因 为 随 着 节点 数量 的 增加 ， 这 可 能 导致 SAN 连 接 快 速 饱和 。 在 大 多 数 情 况 下 ， 本 地 JBOD 人 存储 将 比 SAN 人 存储 更 具 成 本 效益 。 
SAN 人 存储 很 适合 做 Hadoop Name 节 点 的 元 数据 存储 ， 将 客户 数据 提供 给 SAS 可 视 化 分 析 环 境 。 


4. 网 络 


SAS 可 视 化 分 析 的 两 种 架构 模式 的 网 络 使 用 是 不 同 的 。 在 非 分 布 式 染 构 中 ， 网 络 连 接 到 单 台 服 务 器 ， 用 于 数据 加 载 和 使 用 。SAS 可 视 化 分 析 更 少 依赖 于 网 络 ，SAS LASR 的 操作 不 
受 网 络 约 束 ， 但 是 将 数据 加 载 到 SAS 可 视 化 分 析 环 境 会 受到 网 络 的 限制 。 在 分 布 式 架 构 中 ， 如 图 8-8 和 图 8-9 所 示 ， 外 部 网 络 都 用 于 数据 加 载 和 使 用 ， 内 部 网 络 都 用 于 数据 的 并 行 加 载 、 
分 友 、 过 程控 制 和 返回 结果 。 在 远程 数据 提供 模式 下 ， 链 接 网 络 (专用 网 络 ) 用 于 将 数据 从 远程 并 行 加 载 到 SAS LASR 分 析 服 务 器 的 内 存 里 ， 是 企业 环境 实施 成 功 的 关键 。 
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图 8-8 ” ”Co-located 数据 提供 的 网 路 环境 
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图 8-9 ”远程 数据 提供 的 网 路 环境 


在 企业 环境 中 ， 最 低 网 络 带宽 要 求 是 10GbE 网 络 。 在 部 署 时 ， 要 注意 不 同 网 络 上 的 名 称 解 析 。SAs 高 性 能 分 析 环 境 必 须 解析 内 部 网 络 名 称 ，SAs Visual Analytics 或 Clients 配 置 应 
解析 外 部 网 络 名 称 。 在 实施 配置 中 ， 要 确认 服务 绑 定 到 正确 的 接口 。 


天 于 防火 墙 配置 ， 建 议 外 部 网 络 配置 防火 墙 以 限制 对 环境 的 访问 ， 内 部 网 络 和 链接 网 络 的 节点 之 间 不 配置 防火 墙 。 如 果 要 在 节点 上 配置 防火 墙 ， 需 要 根据 SAs 官 方 文档 的 步骤 配 
置 。 


5. 高 可 用 性 、 可 扩展 性 、 工 作 负载 


系统 的 可 用 性 ， 最 重要 的 是 满足 用 户 的 需求 。 当 系统 故障 影响 到 系统 用 户 的 需求 时 才 会 影响 其 可 用 性 的 指标 。 因 此 在 考虑 高 可 用 性 时 ， 要 针对 用 户 可 能 遇见 的 故障 做 好 应 对 措施 。 


在 非 分 布 式 架 构 中 ， 可 能 会 遇 到 服务 器 计算 机 脱 机 、LASR 分 析 服 务 器 进程 死机 的 问题 。 为 了 修复 这 些 单 点 故障 ， 在 设计 架构 时 可 以 尝试 将 SAS 软 件 部 署 到 多 台 主 机 上 ， 将 SAS 元 数 
据 服 务 器 和 SAS Web 应 用 程序 服务 器 配置 为 Active-Active 群 集 ， 将 SAs 计 算 服务 配置 为 跨 主 机 共享 工作 负载 ， 从 而 有 效 地 提高 系统 的 可 用 性 。 如 果 有 足够 的 资源 可 用 ， 也 可 以 在 单个 
主机 上 运行 多 个 LASR 服 务 器 。 


在 分 布 式 架构 中 ， 在 SAS LASR 分 析 服 务 器 的 工作 节点 出 现 故 障 的 情况 下 ， 内 存 中 的 进程 将 失败 。 如 果 故 障 是 由 于 意外 杀 死 SAs LASR 根 节点 或 工作 程序 的 PID， 那 么 恢复 时 只 需 
关闭 SAS LASR 分 析 服 务 器 的 所 有 节点 ， 再 正常 重新 启动 受 影响 的 分 布 式 SAS LASR 服 务 ， 最 后 重新 加 载 数据 。 如 果 故 障 是 由 于 SAS LASR 节 点 的 物理 硬件 坏 掉 ， 主 机 一 段 时 间 不 能 
用 ， 那 么 就 需要 修改 grid.hosts 文 件 ， 让 SAS LASR 分 析 服 务 器 不 再 使 用 该 机 器 。 


SAS LASR 服 务 器 的 根 节点 故障 是 分 布 式 架构 的 特定 单 点 故障 。 当 SAS LASR 启 动 时 ， 根 节点 是 唯一 一 个 与 客户 端 (例如 SAS 和 SAS Visual Analytics Web 应 用 程序 ) 交互 的 接口 ， 
它 处 理 所 有 请 求 和 响应 。 如 果 根 节点 的 主机 发 生 故 障 ， 则 会 产生 很 大 的 影响 。 为 了 保护 SAS LASR 根 节点 ， 在 设计 时 可 以 采用 某 种 形式 的 主动 -被 动 (Active-Passive) 故障 转移 措施 


一 一 其 中 一 个 根 节点 (主动 ) 在 高 性 能 分 析 环 境 中 正常 运行 ， 在 故障 的 情况 下 ，SAS LASR 就 被 配置 为 在 另 一 台 主 机 的 根 节点 (Passive) 上 执行 。 


Hadoop 提 供 数据 元 余 ， 默 认 情况 下 ， 每 个 块 的 两 个 副本 保存 在 HDFS 中 。 如 果 单 个 节点 发 生 故 障 ， 数 据 仍然 可 用 。 但 数据 节点 的 故障 可 能 导致 数据 的 不 均匀 分 布 。Hadoop 
Name 节 点 存储 HDFS 中 文件 的 元 数据 ， 如 果 Name 节 点 故障 则 意味 着 HDFS 故 障 。Hadoop 服 务 可 以 配置 为 自动 处 理 Name 节 点 服务 的 故障 转移 过 程 。 


分 布 式 模式 最 大 的 特点 是 可 扩展 性 ， 它 能 够 适应 需求 变化 而 扩展 。 企 业 级 应 用 需求 经 常 随 时 间 而 不 断 变 化 ， 这 也 对 企业 级 应 用 平台 提出 了 很 高 的 要 求 。 企 业 级 应 用 必须 要 能 适应 需 
求 的 变化 ， 即 具有 可 扩展 性 。SAS 可 视 化 分 析 具 有 良好 的 可 扩展 性 ， 可 以 通过 增加 服务 器 数量 来 增强 分 布 式 系统 整体 的 处 理 能 力 ， 以 应 对 企业 的 业务 增长 带 来 的 计算 需求 。 系 统 可 以 从 


单机 模式 升级 为 分 布 式 模式 。 在 分 布 式 模式 里 ，SAS 高 性 能 分 析 基 础 架构 可 以 很 好 地 做 横向 扩展 ， 通 过 增加 可 用 节点 ， 来 增加 并 行 处 理 的 数据 量 。 
6. 备 份 还 原 


SAs 提 供 了 三 种 工具 来 备份 环境 ， 防 止 因 各 种 故障 而 造成 的 丢失 及 损坏 ， 即 SAs 部 署 备 份 和 恢复 工具 、 元 数据 服务 器 备份 工具 、 导 出 /导入 向 导 和 导出 /导入 批 处 理工 具 。 对 SAs 可 
视 化 分 析 节 点 ( 根 节 点 和 工作 节点 ) 或 用 于 非 分 布 式 的 SAs 服 务 器 ， 部 署 后 做 备份 或 映像 系统 可 以 轻松 恢复 系统 的 元 数据 、 配 置 文件 、 数 据 和 程序 。 对 于 SAs LASR 分 析 服 务 器 ， 内 存 
中 的 数据 是 没有 备份 的 ， 只 能 重新 加 载 。 如 果 需 要 ， 可 以 将 内 存 中 的 表 “ 保 存 ” 回 数据 源 系 统 。 第 三 方 Hadoop 提 供 额 外 的 备份 /恢复 产品 和 实用 程序 。 在 实施 时 ， 注 意 平衡 将 数据 重 
新 加 载 与 备份 的 成 本 和 时 间 。 


7. 与 其 他 解决 方案 的 集成 
在 部 署 SAS 可 视 化 分 析 解 决 方案 时 ， 企 业 可 能 已 经 部 署 了 SAS 其 他 解决 方案 或 者 即将 部 署 其 他 SAS 产 品 。 考 虑 到 成 本 和 资源 的 使 用 率 ， 会 考虑 将 他 们 集成 在 一 起 。 


SAS 可 视 化 分 析 支 持 与 新 的 或 现 有 的 SAS 环 境 共享 元 数据 服务 器 和 SAS 高 性 能 分 析 环 境 。 其 他 SAS 环 境 可 以 是 任何 软件 组 件 、 任 何 类 型 的 部 署 。 在 共享 环境 里 ， 技 术 方 面 没 有 任何 
限制 ， 但 可 能 有 性 能 或 者 可 用 性 的 问题 ， 如 资源 争 用 ，SAs 应 用 程序 服务 器 的 自 定 义 环境 和 软件 许可 证 的 问题 。 还 需要 考虑 要 处 理 的 数据 的 位 置 ， 以 及 数据 是 否 在 环境 之 间 共 享 。 在 分 
布 式 环境 中 ， 大 多 数 的 工作 负载 在 SAS 高 性 能 分 析 环 境 上 ， 因 此 没有 性 能 问题 。 在 已 经 部 署 其 他 解决 方案 的 情况 下 ，SAS 可 视 化 分 析 的 中 间 层 软件 应 安装 在 与 其 他 解决 方案 中 间 层 组 件 
相同 的 操作 系统 (UNIX 或 Windows) 上 。 建 议 为 每 个 SAS 应 用 程序 服务 器 使 用 单独 的 context， 这 样 可 以 为 每 个 应 用 提供 不 同 的 SAS 选 项 ， 比 如 ，SAS Visual Analytics 的 工作 区 服务 
器 使 用 令 牌 身份 验证 ， 但 其 他 解决 方案 的 工作 区 服务 器 使 用 其 他 身份 验证 ;同时 其 他 解决 方案 也 可 能 需要 特定 或 不 同 的 SAS 选 项 集 。 客 户 可 以 为 部 署 在 单独 主机 的 SAS Visual 
Analytics 申 请 软件 许可 证 。 考 虑 到 SAS Visual Analytics 或 其 他 产品 的 成 本 可 以 申请 在 不 同 主机 上 进行 软件 许可 。 


将 SAS Visual Analytics 添 加 到 现 有 环境 时 要 注意 下 面 事项 : 
. 软件 版 本 必须 匹配 ， 可 能 需要 更 新 现 有 环境 
"SAS Management Console 实 例 将 需要 安装 SAS Visual Analytics 远 辑 类 型 
` 添加 额外 的 主机 将 最 小 化 其 他 的 配置 和 简化 部 署 过 程 
` 删除 现 有 解决 方案 捆绑 在 一 起 的 任何 以 前 存在 的 SAS Visual Analytics 软 件 组 件 。 (有 关 更 多 信息 ， 请 参阅 SAS 官 方 文档 ) 


SAS 有 个 产品 叫 SAS 可 视 化 分 析 管 理 和 报表 (SAS Visual Analytics Administration and Reporting， 和 简写: VAAR) ， 与 SAS Visual Analytics 很 相似 。 在 许多 SAS 9.4 解 决 方案 
和 技术 包 中 含有 VAAR 组 件 ， 增 强 产 品 的 可 视 化 和 报告 功能 。VAAR 不 是 SAS Visual Analytics， 是 SAS Visual Analytics 中 提供 的 组 件 的 子 集 。VAAR 和 SAS Visual Analytics 之 间 的 主 
要 区 别 是 ，VAAR 中 不 包含 Visual Analytics Explorer 和 Visual Statistics 的 组 件 。VAAR 也 有 分 布 式 或 非 分 布 式 SAS LASR 分 析 服 务 器 架构 。 各 个 解决 方案 与 VAAR 的 集成 将 随 解决 方案 
而 变化 。 一 些 解决 方案 具有 专用 的 SAS LASR 服 务 器 实例 ， 因 此 ， 使 用 N 个 解决 方案 的 部 署 可 能 具有 N+1 个 LASR 服 务 器 。 


在 实际 生产 环境 中 ， 客 户 可 能 会 同时 拥有 SAS Visual Analytics 和 VAAR。 如 果 客 户 计 划 只 运行 一 个 SAS Visual Analytics LASR 服 务 器 ， 那 么 SAS Visual Analytics 的 许可 证 以 及 授 
权 的 CPU 核 数 决 定 了 SAS Visual Analytics LASR 服 务 器 的 授权 容量 。 如 果 客户 要 同时 运行 VAAR 和 SAS Visual Analytics， 则 必须 有 两 个 完全 独立 的 SAS LASR 分 析 服 务 器 。 当 有 两 个 完 
全 独立 的 SAS LASR 分 析 服 务 器 (一 个 用 于 SAS Visual Analytics 和 一 个 用 于 VAAR) 时 ，SAS Visual Analytics 不 能 使 用 VAAR 的 LASR 服 务 器 的 容量 ， 反 之 亦 然 。 


8.1.2 ”大 规模 并 行 处 理 部 署 要 后 
通过 上 一 节 的 介绍 ， 我 们 已 经 掌握 了 可 视 化 分 析 的 两 种 架构 模式 。 非 分 布 式 架构 是 部 署 在 单机 上 的 ， 不 需要 SAS 高 性 能 分 析 基 础 架构 。 分 布 式 架 构 是 在 集群 上 部 署 SAS 高 性 能 分 析 
基础 架构 的 ， 因 此 需要 配置 集群 中 机 器 间 的 通信 、 数 据 并 行 加 载 等 步骤 。 两 者 相 比 较 ， 分 布 式 部 署 要 复杂 得 多 。 这 一 节 就 以 分 布 式 架构 部 署 为 例 ， 来 介绍 一 下 部 署 时 需要 注意 的 事项 。 
SAS Visual Analytics 分 布 式 架构 部 署 过 程 如 下 : 
步骤 1 创建 SAS 软 件 包 


软件 包 是 用 来 部 署 SAs 软 件 的 一 个 专用 的 文件 系统 。 这 个 软件 包含 有 SAs 部 署 向 导 (一 个 安装 和 初始 配置 大 部 分 软件 的 程序 ) ， 一 个 或 多 个 部 署 计划 ， 一 个 SAS 安 装 数据 文 
件 ，Order 数 据 和 产品 数据 。 


步骤 2 检查 文档 更 新 
在 SAS NOTE 上 检查 最 新 的 安装 信息 和 审查 你 的 SAs 软 件 的 系统 需求 。 这 是 非常 重要 的 ， 能 够 避免 在 具体 部 署 过 程 中 出 现 系统 (硬件 、 软 件 ) 不 符合 需求 等 安装 问题 。 
步骤 3 ”准备 分 析 集 群 


准备 分 析 集 群 含有 很 多 任务 ， 比 如 在 GRID HOST 文件 中 创建 机 器 名 字 列 表 ， 创 建 无 密码 9SH， 考 虑 系统 UMASK 设 定 。 你 必须 决定 使 用 什么 操作 系统 安装 、 配 置 和 运行 SAs 高 性 能 
分 析 环 境 ， 还 需要 设计 所 用 的 SAs 组 件 的 端口 。 


步骤 4 ”( 可 选项 ) 部 署 SAS 高 性 能 计算 管理 控制 台 
SAS 高 性 能 计算 管理 控制 台 是 一 个 可 选 的 网 络 应 用 工具 ， 在 分 布 式 环境 中 减轻 多 台 机 器 的 管理 负担 。 
步骤 5 ”( 可 选项 ) 部 署 Hadoop 
如 果 使 用 Co-located 数 据 提供 模式 ， 那 么 就 需要 安装 和 配置 SAS 的 Hadoop 插 件 或 者 一 个 SAS 支 持 的 Hadoop 产 品 。 
步骤 6 ”部署 SAS 高 性 能 分 析 环 境 
SAS 高 性 能 分 析 环 境 由 根 节点 和 工作 节点 组 成 。 根 节点 的 软件 被 部 署 在 第 一 个 主机 上 ， 工 作 节 点 的 软件 被 部 署 在 集群 中 其 他 主机 上 。 
步骤 7 (可 选项 ) 为 Hadoop 部 署 SAS 府 入 式 进 程 
如 果 使 用 Hadoop 远 程 数 据 提供 模式 ， 那 么 就 需要 安装 和 配置 SAS/ACCESS Interface to Hadoop 和 SAS 岩 入 式 进程 。 这 些 组 件 包含 在 你 的 部 署 安 装 包 里 。 
步骤 8 (可 选项 ) 配置 分 析 环 境 的 远程 并 行 连接 
用 户 可 以 选择 是 否 配置 分 析 环 境 的 远程 并 行 连接 。 
步骤 9 ”安装 配置 SAS 可 视 化 解决 方案 
在 软件 包 里 启用 SAS 部 署 向 导 完 成 产品 的 安装 和 配置 。 在 配置 过 程 中 ， 要 选择 部 署 架构 ， 提 供 SAS 高 性 能 分 析 环境 相关 信息 。 
步骤 10 配置 SAs 可 视 化 解决 方案 环境 
安装 配置 成 功 后 ， 需 要 手动 配置 一 些 环境 参数 和 运行 脚本 ， 否 则 一 些 功能 将 不 能 使 用 。 
1. 操 作 系 统 设置 
在 准备 分 析 集 群 时 ， 下 面 列 出 了 每 台 机 器 的 推荐 设置 ， 更 改 完成 后 要 重新 启动 所 有 服务 器 。 
(1) SELinux 


默认 情况 下 ，RedHat Enterprise Linux 的 安全 子 系统 SELinux 是 启用 的 。 但 SELinux 在 启用 时 将 干扰 SAS Visual Analytics 7.3， 因 此 ， 我 们 必须 在 所 有 节点 上 将 SELinux 设 置 
为 “已 禁用 ”。 在 所 有 节点 上 编辑 /etc/sysconfig/selinux， 设 置 SELINUX=permissive。 


(2) 检查 umask 设 置 


umask 设 置 了 用 户 创建 文件 的 默认 权限 。 在 RedHat Linux 上 ， 如 果 用 户 的 主 组 名 与 用 户 名 具有 相同 的 名 称 (如 sas/sas) ，umask 则 设置 为 002; 否则 ， 将 它 设置 为 022。 这 可 能 
会 导致 创建 无 密码 SSH 的 授权 密 钥 文件 时 出 问题 。 因 此 要 检查 所 有 umask 均 设置 为 022。 


(3) CPU 速度 


RedHat Enterprise Linux 操 作 系统 具有 节 流 CPU 以 节省 电力 的 设置 。 茜 用 该 项 可 以 获得 硬件 的 最 大 性 能 。 如 果 系 统 环境 没有 安装 底层 cpuspeed 程 序 包 ，CPU 将 以 全 速 运行 。 要 更 
改 CPU 速 度 设置 ， 请 编辑 /etc/sysconfig/cpuspeed， 设 置 GOVERNOR=performance。 


(4) 安全 限制 


SAS Visual Analytics 需 要 更 改 对 最 终 用 户 的 安全 限制 ， 使 SAs Visual Analytics 软 件 所 需 的 进程 和 文件 能 够 正常 运行 。 环 境 中 所 有 主机 的 这 些 配 置 必须 完全 相同 。 设 置 限制 需要 在 
每 个 主机 上 编辑 两 个 文件 : 


` 编辑 /etc/security/limits.conf， 将 以 下 行 添 加 到 文件 底部 “#End offile” 行 的 前 面 。 


大 hard nofile 350000 
大 soft nofile 350000 
* hard nproc 100000 
soft nproc 100000 
和 hard stack 10240 
的 soft stack 10240 


. 编辑 /etc/secutity/limits.d/90-nproc.conf，nproc 的 值 需 要 从 默认 值 1024 更 改 为 10240， 

(5) 定时 任务 调度 cron 

SAS 安 装 账户 必须 能 够 使 用 cron 调 度 任 务 ， 以 便 定 期 更 新 搜索 数据 库 。AutoLoad LASR 服 务 器 会 使 用 cron 服 务 。 

(6) SMTP 服 务 器 

SAs 部 署 向 导 会 提示 您 输入 SMTP 服 务 器 ， 部 署 可 以 使 用 该 服务 器 发 送 电子 邮件 。 请 确认 要 使 用 的 主机 名 和 端口 。 
2.gridhosts 文 件 


gridhosts 文 件 定义 SAS Visual Analytics 整 个 环境 的 所 有 主机 的 配置 文件 。SAS LASR 分 析 服 务 器 、Hadoop 和 SAS 高 性 能 管理 控制 台 都 需要 该 文件 。 检 查 /etc/gridhosts 文 件 是 否 
存在 于 根 节点 服务 器 。 如 果 不 存在 ， 在 SAS LASR 根 节点 上 创建 它 。 以 root 用 户 的 身份 创建 /etc/gridhosts 文 件 ， 在 单独 的 行 上 输入 集群 中 每 台 服 务 器 的 主机 名 称 ， 确 保 服 务 器 名 称 前 
后 没有 空格 、 不 留 空 行 。SAS LASR 的 根 节点 必须 是 列表 中 的 第 一 位 。 


3. 无 密码 SSH 


启用 无 密码 SSH 人 允许 用 户 远 程 登 录 或 执行 命令 ， 而 无 须 提 示 输 入 密码 。 在 部 署 阶段 和 操作 阶段 都 需要 响应 下 列 用 户 的 无 密码 SSH。 

" SAS LASR 服 务 器 管理 员 (开始 /停止 /加 载 / 印 载 ) 

SAS 安 装 账户 (管理 SAS LASR 监 视 器 ， 安 装 HPAI) 

. Hadoop 用 户 账户 (管理 HDFS、YARN 和 MAPRED) 

. 高 性 能 分 析 服 务 器 用 户 (运行 HP PROCS) 

SAS Visual Analytics 分 布 式 环境 有 2 种 不 同类 型 的 SSH 密 钥 分 友 : 一 种 是 从 一 个 主机 到 集群 中 其 他 主机 的 无 密码 SSH， 仪 分 发 公 钥 ; 另 一 种 是 从 所 有 主机 到 所 有 主机 的 无 密码 
SSH， 需 要 分 发 公 钥 和 私 钥 。 表 8-7 分 别 列 出 了 每 种 类 型 都 有 哪些 用 户 。 


表 8-7 不 同 用 户 所 需 的 SSH 秘 铀 


SAS 高 性 能 计算 管理 控制 台 的 root 账户 
公 和 钥 用 于 安装 高 性 能 分 析 环 境 的 SAS 安 疙 账户 
用 于 安装 HDFS 的 root 账户 
用 于 局 动 LASRMonitor 服务 的 账户 〈 通 稼 为 SAS 安放 程序 账户 ) 
公 乌 和 私 负 用 于 启动 HDFS、YARN 和 MapReduce 作业 历史 记录 的 hdfs /yarn /mapred 用 户 账 户 
用 于 局 动 LASR 服务 硕 的 账户 的 SAS 演示 用 户 


对 于 大 多 数 分 布 式 环境 ， 表 中 显示 的 角色 将 被 压缩 ， 一 个 主机 将 具有 多 个 角色 。 例 如 ， 在 实际 操作 中 ， 我 们 有 一 个 5 台 服 务 器 的 分 布 式 环境 ， 服 务 器 1 部 署 SAS 服 务 器 和 SAS LASR 
的 根 节点 ; 服务 器 2 ~ 4 部 署 SAS LASR 的 工作 节点 ; 服务 器 5 部 署 SAS Visual Analytics 的 中 间 层 。SAS 安 装 程序 账户 用 于 在 所 有 节点 上 安装 所 有 SAS 软 件 ， 并 用 于 在 SAS 服 务 器 上 运行 
LASRMonitor 服 务 。SAS 演 示 用 户 配 置 为 使 用 SAS Visual Analytics 中 的 所 有 功能 ， 还 能 够 启动 SAAS LASR 分 析 服 务 器 实例 ， 将 数据 加 载 到 SAS LASR 分 析 服 务 器 ， 并 能 够 探索 和 报告 
SAS LASR 分 析 服 务 器 中 的 数据 。 图 8-10 列 出 了 在 部 署 环境 时 各 个 服务 器 上 所 需 的 最 少 用 户 及 其 SSH 配 置 。 


如 果 SAS Visual Analytics 计 算 服 务 器 在 Linux 上 ， 创建 的 SSH 密 钥 不 需要 离开 Linux 服 务 器 ; 如 果 Visual Analytics 计 算 服务 器 在 Windows 上 ，SAs 安 装 用 户 和 SASs LASR 管 理 员 账 
户 必须 存在 ，SSH 密 钥 必 须 从 Linux 复 制 到 Windows。 大 多 数 无 密码 SSH 连 接 将 在 LASR 根 节点 和 LASR 工 作 节 点 之 间 进 行 。 


在 SAS Visual Analytics 和 SAS 高 性 能 分 析 环 境 都 部 署 在 Linux 操 作 系 统 的 环境 里 ， 如 图 8-11 所 示 ， 在 sasserver01 上 创建 所 有 需要 的 SSH 账 户 的 私 钥 、 公 钥 和 授权 密 钥 。SAS 高 性 能 
计算 管理 控制 台 在 LASR 所 有 工作 节点 中 只 需要 root 的 授权 密 钥 ， 因 为 只 需要 从 根 节点 到 所 有 工作 节点 进行 “ 单 向 ”通信 。SAS 安 装 用 户 也 是 如 此 ，gridmon/LASR 监 视 器 都 是 从 根 节 点 
到 工作 节点 的 “ 单 向 ”通信 。LASR 管 理 员 账户 和 Hadoop 账 户 在 所 有 节点 上 都 需要 私 钥 和 授权 密 钥 。 这 些 账户 要 求 每 个 节点 能 够 通过 SSH 连 接 到 所 有 其 他 节点 。 请 注意 ，SAS 高 性 能 计 
算 管 理 控制 台 在 LASR 所 有 工作 节点 中 不 需要 root 账 户 的 私 钥 。 


\ a | LASR | LAsR : 
YY Y Y 全 下 





root 


as ， 安装 SAS 高 性 能 计算 管理 控制 台 和 Hadoop 


Sas Y Y Y Y 入， 安 壬 用户、 运行 LASRMonitor 
SassSTvy ' N N 和 SAS General Servers User 
sasdemo Y %, N Y Ss Y 贪 。 启动 LASR ,加载 数据 ， 读 取 报 告 
hdfs N N Y ® Y 名 安 守 机 E 行 HDFS 


名 -无 密码 SSH 配 置 ,Y= 用 户 存在 该 主机 


图 8-10 ”部 署 分 布 式 架构 的 必要 用 户 及 其 SSH 配 置 
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图 8-11 ”在 Linux 环 境 中 无 密码 SSH 的 配置 


SAS Visual Analytics 部 署 在 Windows 上 、SAS 高 性 能 分 析 环 境 部 署 在 Linux 上 的 环境 里 ， 如 图 8-12 所 示 ， 工 作 区 服务 器 需要 与 SAS 高 性 能 分 析 环 境 的 根 节点 通信 ， 这 是 通过 SSH 完 
成 的 。 因 此 SSH 密 钥 必 须 存在 于 Windows 机 器 上 。 它 们 可 以 从 Linux 机 器 复制 或 者 创建 新 密 钥 ， 以 便 工 作 区 服务 器 与 SAS 高 性 能 分 析 环 境 的 根 节点 通信 。Linux 上 的 现 有 密 钥 可 以 依然 保 
留 ， 以 便 根 节点 与 工作 节点 通信 。 同 理 ，LASR 监 视 器 必须 与 根 节点 上 的 gridmon 进 行 通信 ， 而 LASR 监 视 器 始终 位 于 Visual Analytics 计 算 服务 器 所 在 的 机 器 上 ， 它 们 之 间 的 通信 和 需 
SSH， 因 此 必须 将 密 钥 复 制 到 启动 LASR 监 视 器 (通常 是 SAS 安 装 程序 ) 的 账户 所 在 的 Windows 主 机 上 。 


在 Windows 上 创建 “.ssh” 目 录 是 使 用 DOS 提 示 符 实现 的 ， 因 为 Windows 资 源 管 理 器 禁止 创建 以 点 开头 的 目录 。 从 Linux 机 器 sasserver01 复 制 私 钥 和 公 和 钥 到 “.ssh” 目 录 。 


SAS Visual Analytics 7.3 on Windows with Distributed LASR on Linux 
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图 8-12 ”SAS Visual Analytics 在 Windows 环 境 中 无 密码 SSH 的 配置 
配置 无 密码 SSH 的 手动 步骤 如 下 。 
生成 公 钥 / 私 钥 对 
. 创建 authotized_keys 文 件 
将 所 需 文件 安全 地 复制 到 目标 系统 
SSsH 密 钥 还 可 以 使 用 SAs 高 性 能 计算 管理 控制 台 创建 和 分 发 ， 比 手动 步骤 更 简单 ， 而 且 最 大 限度 地 减少 错误 风险 。 
4 软件 包 


在 SAS 可 视 化 分 析 的 环境 中 ， 所 有 节点 上 都 需要 安装 一 些 部 署 所 需 的 软件 包 ， 表 8-8 列 出 了 具体 软件 包 。 最 新 信息 ， 请 参阅 SAS 官 方 文档 。 


表 8-8 每 个 节点 所 需 软 件 包 


软件 名 


Libnuma 


Glibc 


Java 


软件 名 


Python 


X11 Libraries 


Perl-Net-SSLeay 


at 


libpng 


JUnit 


注意 事项 
SAS Visual Analytics 需要 在 环境 中 的 所 有 主机 上 安装 libnuma 
SAS Foundation 9.4 要 求 GLIBC 2.12。 但 是 ， 如 有 打 安 装 了 较 旧 的 版 本 ， 它 可 能 会 引入 GHOST 
glibc 漏洞 
SAS 高 性 能 部 署 Hadoop 需要 在 所 有 主机 上 安装 Java JRE。 请 注意 ， 建 议 使 用 http://wiki. 
apache.org/hadoop/HadoopJavaVersions 中 列 出 的 某 个 版 本 。 请 确保 安 冯 了 兼容 版 本 的 JRE， 即 使 
它 不 是 操作 系统 使 用 的 默认 版 本 


注意 事项 

SAS Visual Analytics 需要 将 版 本 在 2.6 和 3.0 之 间 的 python 安装 在 环境 中 的 第 一 个 主机 上 ， 
以 便 SAS Information Retrieval Studio 可 以 运行 和 更 新 搜索 数据 库 

SAS Visual Analytics 需要 在 环境 中 的 第 一 台 主 机 上 安装 64 位 的 特定 libX 软件 包 ， 以 便 可 以 
运行 SAS 部 署 问 导 。 此 外 ， 如 果 要 在 所 有 节点 上 部 闭环 境 管理 天 代理 ， 则 需要 在 所 有 节点 上 运 
行 SAS 部 署 向 导 。 因 此 ，X 库 应 该 安装 在 所 有 节点 上 

SAS Visual Analytics 需要 在 运行 SAS 高 性 能 计算 管理 控制 台 的 主机 上 安装 Perl-Net SSLeay 
模块 

SAS 操作 系统 计划 程序 使 用 at 命令 和 守护 程序 。 如 果 计 划 使 用 此 调度 程序 ， 请 确保 已 安装 和 
起 曾 

Base SAS 的 某 些 部 分 可 能 需要 使 用 libpng 库 

JUnit 是 验证 一 些 组 件 所 必需 的 。 如 果 没 有 JUnit， 这 些 产品 可 能 会 正常 运行 ， 但 是 您 将 无 法 
使 用 Deployment Tester 验证 它们 。 有 关 详 细 信 息 ， 请 参阅 第 三 方 软件 文 持 页 面 : http://support. 
sas.com/resources/thirdpartysupport/ 





在 环境 中 的 所 有 节点 上 ， 也 可 以 安装 表 8-9 推 荐 的 软件 包 。 


NLP 


打印 服务 包 


一 般 包 


5.RDBMS 客 户 端 


表 8-9 ”推荐 安装 的 软件 包 


建议 在 构成 SAS Visual Analytics 环境 的 不 同 服务 套 之 间 拥 有 准确 一 致 的 时 间 。 哩 然 不 这 样 做 
可 能 不 会 导致 软件 本 身 的 问题 ， 但 当 从 不 同 机 带 碍 看 时 间 惟 时 可 能 导致 不 必要 的 混乱 

如 采 需 要 从 SAS Visual Analytics 打印 报告 ， 则 中 间 层 服务 硕 上 需要 libjpeg-turbo、libpng、 
libXxf86vm 、libcurl 软件 包 。SAS 注释 中 的 包 列 表 比 这 里 列 出 的 更 广泛 。 建 议 安装 SAS 注释 中 
的 软件 包 : http://support.sas.com/kb/56/108.html 

建议 RedHat Enterprise Linux 操作 系统 在 环境 中 的 所 有 主机 上 安装 以 下 软件 包 : 

nfs-utils.x86 64、 nfs-utils-lib.x86 64、firetfox、compat-libstdc++-33 、libuuld 、libSM、 
libxrender 、fontconfig 、libstdc++、zlib 、apr、ksh 


如 果 要 使 用 SAS/ACCESS 接 口 功 能 ， 请 确保 在 SAS 应 用 程序 服务 器 上 安装 所 需 的 DBMS 客 户 端 软 件 。 


6. 远 程 数 据 提供 程序 


从 远程 数据 提供 程序 加 载 数据 到 SAS LASR 需 要 在 数据 提供 程序 平台 上 部 署 SAS 嵌 入 式 进程 (EP) 。 如 果 客 户 有 多 个 远程 数据 提供 商 ， 那 么 就 要 在 每 个 数据 提供 程序 平台 中 部 署 
SAS EP。 应 该 注意 的 是 ， 只 有 在 SAS Foundation 和 SAS/ACCESS 引 擎 安装 完成 之 后 ，SAS EP 软件 才 可 用 。 


7. 启 用 Kerberos 身 份 认证 


从 SAS Visual Analytics 7.1 开 始 ，SAS 高 性 能 分 析 基 础 设施 支持 Kerberos 网 络 身份 验证 协议 以 提供 增强 的 安全 性 。 实 现 Kerberos 需 要 满足 以 下 先决 条 件 : 


. Ketbetos 密 钥 分 发 中 心 (或 KDC) 


. 在 每 个 节点 上 配置 的 Kerberos 客 户 端 


` 在 所 有 节点 上 复制 和 保护 Kerberos keytab 文 件 的 权限 


. KKerbetos 域 控制 器 上 支持 加 密 类 型 aes256-cts:normal 有 aes128-cts:normal 


有 关 Kerberos 先 决 条 件 和 部 署 的 详细 信息 ， 请 参阅 “SAS 高 性 能 分 析 基 础 架构 3.5: 安装 和 配置 指南 。。 有 关 部 署 和 体系 结构 注意 事项 的 其 他 信息 ， 请 参阅 SAS 官 方 文档 。 


8.SAS 高 性 能 分 析 基 础 架构 


SAS 高 性 能 分 析 基 础 架构 由 SAS 高 性 能 分 析 环 境 、SAS 高 性 能 计算 管理 控制 台 和 SAS 的 Hadoop 揪 件 组 成 。 其 中 ，SAS 高 性 能 分 析 环 境 是 必须 安装 的 ，SAS 高 性 能 计算 管理 控制 台 和 
SAS 的 Hadoop 插 件 都 是 可 选 的 。 


SAS 高 性 能 分 析 环 境 具体 包含 有 四 个 组 件 : 
"TKGrid- 用 于 启动 内 存 服务 器 (又 名 SAS LASR 分 析 服 务 器 ) ,使 用 消息 传递 接口 在 节点 之 间 通 信 。 这 个 组 件 必须 安装 。 
" TKTGDat - 提供 文本 分 析 所 需 的 二 进 制 语言 文件 ， 是 可 选 组 件 。 
. TKGrid_REP - 用 于 对 远程 数据 的 访问 。 这 个 安装 文件 就 是 我 们 之 前 所 说 的 SAS 说 入 式 进程 (EP) 。 远 程 数据 访问 时 ， 在 数据 提供 程序 平台 上 必须 安装 SAS EP。 
. TKGrid_SEC- 在 HDFS 读 取 和 写 入 时 提供 对 SASHDAT 加 密 ， 是 可 选 组 件 。 


在 安装 SAs 高 性 能 分 析 基 础 架构 之 前 ， 一 定 要 先 安装 配置 好 所 文 持 的 Hadoop 环 境 。 如 果 用 户 使 用 Hadoop 的 Co-located 数 据 提供 模式 ， 上 面 三 个 组 件 在 各 个 主机 的 安装 如 图 8-13 
所 示 。SAS 高 性 能 计算 管理 控制 台 仪 安装 在 第 一 个 节点 上 ， 并 通过 SSH 与 每 个 其 余 节 点 通信 。SAS 高 性 能 分 析 环 境 的 软件 安 洲 在 第 一 个 节点 上 ， 然 后 作为 安 六 的 一 部 分 复制 到 其 余 节 
点 。 这 样 ， 每 个 节点 都 可 以 与 群集 中 定义 的 任何 其 他 节点 通信 。 


Wr 


环境 工作 市 点 环境 工作 节点 



































图 8-13 ” Co-located 数据 提供 模式 下 高 性 能 分 析 组 件 的 安装 


在 非 对 称 远程 数据 提供 模式 下 ， 如 图 8-14 所 示 ，SAS 调 入 式 进 程 安装 在 远程 Hadoop 和 集群 的 各 个 节点 中 ，Hadoop 和 集群 的 节点 数 不 等 于 SAS LASR 分 析 服 务 器 集群 的 节点 数 。 


SAS Visual Analytics 7.3 Asymmetric Hadoop 
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图 8-14 远程 非 对 称 数据 提供 模式 下 高 性 能 分 析 组 件 的 安装 


安装 文件 位 于 软件 包 的 standalone installs 目 录 中 ， 如 图 8-15 所 示 ， 每 个 组 件 都 有 一 个 目录 。 


Tgsasl@rdcesxl1l11989:standalone installs> | 
= Package for Hadoop 
Ss Core Embedded Process _Package_ for Oracle 


本 _High- Performance Computing LENERTTT Console 


S HIgh-Performance Encryptlon InstaLLat1on 


S HIgh-Performance Node InstaLLatlLon 


s Plug-lIns for Hadoop 
fgsas1l1@rdcesxl1199:standaLone InstaLLs> 国 


ch 
ch 
Sh 
CAC 
ch 
Sh 





图 8-15 SAS 高 性 能 分 析 基 础 架构 的 软件 包 
每 个 组 件 的 推荐 安装 目录 见 表 8-10。 


能 分 析 环 境 /opt/sas/TKGrid 
能 计算 管理 控制 台 | /opt/sas/hpcemc 
Hadoop / opt/sas/hadoop 


SAS 高 性 
SAS 高 性 


9.SAS 可 视 化 分 析 解 决 方案 安装 
SAS 可 视 化 分 析 解 决 方案 通过 SAS 部 署 向 导 来 完成 安装 和 配置 。 推 荐 的 安装 目录 如 下 : 
<SASHOME> = /opt/sas/SASHome 


配置 时 要 注意 下 面 几 点 : 


1) 提示 从 三 个 级 别 的 配置 提示 中 选择 : 快捷 、 典 型 和 自 定义 。 
为 SAS 部 署 向 导 选 择 快捷 提示 级 别 时 ， 不 会 提示 您 输入 所 需 的 SAS 内 部 元 数据 服务 器 账户 和 SAS Web Infrastructure Platform 数据 服务 器 账户 。 当 您 选择 典型 或 自 定义 提示 级 别 

时 ， 如 图 8-16 所 示 ， 您 会 看 到 这 些 账户 的 密码 提示 。 但 是 ， 他 们 的 密码 字段 预先 填充 为 SAS 内 部 账户 : 不 受 限 制 的 管理 员 的 密码 。 
sa5 Deployment Wizard (on rdcesx111097} 


sas 内 部 幅 片 : 不 受 限 制 的 管理 负 
指定 首 个 " 涉 受 也 击 用 管理 后 * 身 要 的 元 数据 窗 三 *" 趟 党 也 栅 则 J 祝 理 品 “ 对 元 烙 据 
有 具有 不 党 隐 制 本 侣 理 构 限 。 


[sl Ed 





“让 过 卫 制 电 僻 理 “ 感 存 冉 在 元 烙 所 中 且 5 态 内 部 帐户 。 


宇 示 省 !) 
Sa AHIMINIstrator 


首 种 屋 : 


545agTl 


内 部 用 卢 ID 


sadMsaspw 


新 和 内 部 密 攀 心 ) 
Err | 
确 坟 新 内 部 窗 三 tC) 


eo | 


使 用 趟 受 限 出 J 党 理 吕 密友 芝 置 密码 色 


图 8-16 ”典型 配置 时 用 户 密码 自动 填写 


2) 指定 数据 提供 程序 ， 如 图 8-17 所 示 ， 该 数据 提供 程序 的 SAS/ACCESs 引 擎 必须 包含 在 ?As 软件 包 中 。 






国 545 Deplorment Wizard (on rdcesrlill09) 


SsAs visual Anhalytics 靳 据 提 人 世 程 序 
Sa5 wisual analytics High-Performance 西 置 需要 有 关 将 与 5A5 Wisuyal 
analwics 王 ( 合 情 用 的 潮 据 提 世 程序 的 信息 * 请 指定 所 需 的 售 息 。 






sa5 wisual 点 nalwtics High-Performance 沼 据 提 世 程序 


Hadoop ro-located HDF’S) 


Hadoop tco-located HOFS) 
Hadoop with SA ermbedded process) 


LFeenplum mith SA embedded process) 
Teradata twith SA embedded process) 
加 三 PR thyFS -mounted HOFS) 





图 8-17 选择 数据 提供 程序 


3) 仔细 查看 SAS Visual Analytics 高 性 能 配置 的 默认 选项 ， 如 图 8-18 所 示 ， 并 更 改 为 匹配 的 安装 选择 。 


加 sas Deployment Wizard (on rdcesxi1109} 







SAS Visual Analytics High-Performance 西 置 信息 
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5a5 High-Performance 点 nalwics 环境 上 有 隐 TKOrid 惑 和 TKOrid_REP 安 拷 己 二 小: 
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525 High-Performance Computing 管理 控制 各 URLiUY: 
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图 8-18 指定 高 性 能 分 析 环 境 的 配置 信息 


4) SAS Visual Analytics 现 在 附带 了 许多 包含 来 自 各 种 行业 的 示例 报表 ， 如 图 8-19 所 示 。 如 果 选 中 此 复 选 框 ， 启 动 Public LASR 服 务 器 时 将 自动 加 载 这 些 报表 。 


加 sas Deployment Wizard (on rdcesx11109} 











SAS Visual 点 nalytics 示 册 报表 
担 定 是 天 包括 示 生 Yisual 上 nalwtics 报表 。 


包括 Yisual Analwtics 示例 报表 出 


图 8-19 ”指定 是 否 包括 示例 报表 


5) 白 名 单 是 一 个 新 的 提示 和 安全 功能 ， 需 要 添加 调用 SAs Visual Analytics Web 应 用 程序 的 那些 URL， 如 图 8-20 所 示 。 尝 试 链接 到 SAS Visual Analytics 应 用 程序 的 未 在 此 处 列 出 
的 网 站 将 失败 ， 并 显示 403 错 误 。 





国 545 Deployrment Wizard ton rdcesxl11109} 


Web 应 用 程序 : 沈 许 链接 至 该 5A5 实 装 点 的 中 点 白 囊 单 
出 于 实 全 原因 : 通过 URL 直接 链接 至 5A5 安装 点 的 网 站 {例如 ; 报表 “ 单 点 登 
录 服 务 器 “ 汉 司 网 站 ) 需要 显 式 包 舍 在 该 白 名 单 中 ”在 S525 Deployment 
Wizard 本 置 过 程 册 :主机 冲 靶 上 自动 加 小 日 书 单 圳 理 。 未 加 汶 .日 首 单 的 闻 太 :在 
医 接 至 十 的 5A5 服务 博时 全 蛋 到 403 艺 止 坊 I 簿 款 。 


次 可 以 在 多 许 的 站 点 列表 (用 各 点 分 隔 ) 中 使 用 通配符 。 要 阻止 通 配 竺 选中 的 特 
下 节 氮 : 博 造 返 避 绷 ， 扒 后 将 稍 局 汪 加 放胆 止 冰 太 党 名 蛙 由 * 古 您 需 轨 宁可 全 
外 :请 司 用 该 面板 。 





URL 白 冲 单列 表 【以 http[ 引 Post[Po] 六 模式 输 作 去 点 务 卫 列表 由 : 








[输入 URL 自 名 单 址 理 的 高 涩 选项 上 


图 8-20 指定 白 名 单列 表 


8.1.3 ”后 配置 、 验 证 、 调 优 
安装 配置 成 功 后 ， 系 统 会 自动 生成 Instructions.html， 里 面 记录 了 部 署 的 配置 信息 和 手动 部 署 说 明 。 当 系统 经 过 主要 功能 验证 和 性 能 调 优 后 ， 就 可 以 交付 给 客户 。 
1. 后 配置 
安装 配置 成 功 后 ， 还 有 一 些 功能 需要 手动 配置 ， 如 自动 加 载 、 启 动 审计 报告 、 调 整 Web 应 用 服务 器 及 环境 备份 等 。 这 些 都 是 可 选 的 ， 可 根据 实际 的 需求 情况 决定 是 否 配置 。 


(1) 环境 备份 


环境 备份 的 典型 流程 包括 安装 和 配置 软件 ， 然 后 验证 软件 。 此 时 ， 强 烈 建 议 对 所 有 节点 进行 备份 。 生 成 的 备份 将 是 一 个 干净 、 新 安装 和 验证 的 系统 。 通 常 在 此 时 未 配置 SAs 备 份 和 
恢复 工具 。 因 此 ， 建 议 进 行 元 数据 备份 和 配置 目录 的 完整 备份 。 然 后 再 执行 后 配置 ， 及 随后 进行 的 相应 验证 。 这 不 必 是 完全 验证 ， 而 是 验证 由 后 配置 任务 修改 的 功能 。 一 旦 验证 完成 ， 
建议 在 转 到 管理 员 之 前 进行 第 二 次 备份 ， 如 图 8-21 所 示 。SAS 部 署 备份 和 恢复 工具 需要 在 所 有 节点 上 安装 SAS 部 署 代理 (SAS Deployment Agent) 。 


EC 国 叶 验证 


f | 
配置 备份 配置 备份 


图 8-21 环境 备份 时 间 点 





(2) 添加 “lasradm” 用 户 


为 了 区 分 不 同 的 角色 可 视 化 分 析 ， 我 们 建议 创建 LAsR 管 理 员 (lasradm) 账户 作为 默认 用 户 来 局 动 LAsR 服 务 器 和 加 载 数据 。 该 账户 主要 负责 LASR 服 务 器 的 所 有 管理 任务 ， 加 载 数 
据 和 管理 LASR 表 的 授权 。 在 SMC 中 创建 该 用 户 ， 确 认 在 “组 和 角色 ”选项 卡 中 选择 以 下 选项 : “Management Console: 高 级 ”角色 、 “Visual Analytics 数 气管 理 员 ”组 


和 “Visual Data Builder 管 理 员 ”组 ， 如 图 8-22 所 示 。 


问 “新 建 用 户 ” 展 性 | 


常规 组 和 和 角色 | 帐户 | 控 术 | 
广 搜索 全 查看 全 部 L) 


好 不 显示 典 套 的 组 成 品 笑 如 。 详 细 信 息 ， 请 老 闻 "帮助 *。 





可 用 乡 和 月 包 避 成 员 所 属 组 iB); 


晓 6I web 服务 用 户 
Management Console; 内 容 管 理 


证 Metadata 5erver; 不 党 限 


ES Metadata 5erver' 操作 
2 Metadata 5erwer; 用 户 管理 












证 Management Console' 高 级 
晓 visual analytics 数据 管理 员 


Wisual Data Builder 管理 员 


图 8-22 ”指定 新 建 LASR 管 理 员 用 户 的 组 
(3) 访客 访问 


SAS Visual Analytics 允 许 没 有 元 数据 或 操作 系统 账户 的 用 户 查 看 管理 员 定义 的 报表 和 资源 。 访 客 将 使 用 SAS 匿 名 Web 用 户 账户 进行 身份 验证 ， 所 有 访客 都 访问 相同 的 资源 。 此 账 
户 是 SAS 内 部 账户 ， 没 有 来 自 单个 主机 或 目录 服务 器 账户 的 身份 验证 功能 。 示 正确 设置 安全 的 文件 夹 或 报告 都 可 能 对 此 账户 可 见 。 访 客 访问 是 一 个 可 选 功能 ， 可 以 在 SDW 配 置 期 间 启 
用 ， 也 可 以 在 部 署 后 通过 SMC 启 用 或 禁用 。 


在 SMC 中 ， 为 SAS 匿 名 Web 用 户 创建 一 个 用 户 ， 在 组 与 角色 标签 中 ， 添 加 “Bl Web Services Users″” 组， 在 账户 标签 中 ， 创 建 一 个 同名 的 内 部 账户 ， 并 设 定 密码 。 设 置 匿名 用 户 
访问 属性 ， 在 SMC 的 SAS Application Infrastructure 中 ， 打 开 Visual Analytics Hub 7.3 属 性 的 高 级 标签 页 ， 如 图 8-23 所 示 ， 设 “App.AllowGuest=true” 是 启用 匿名 访 
问 ，“App.AllowGuest=false” 是 禁用 匿名 访问 。 此 项 修改 在 重启 Web 应 用 程序 服务 器 后 生效 。 


在 SMC 中 ,该 SAS 匿 名 Web 用 户 的 属性 的 账户 标签 页 中 ， 点 击 “ 更 新 ”， 选 择 “ 禁 用 账户 ” 复 选 框 ， 如 图 8-24 所 示 ， 保存 设置 就 可 以 临时 禁用 访客 访问 功能 。 


yisnal] Analrtics Huob T.3” 苇 性 





常规 | 内 部 和 连接 | 外 部 连接 | 设置 :号 


属性 人 
bpp. lowsSuest true 
pp, cliantsidePpoolinghdminIC 


图 8-23 ”开启 访客 访问 功能 


“SASs 工 避 Yeb 用户 ”的 内 闻 卡 户 必 性 | 





内 部 用 户 IDIU)，， webanonBsaspw 
新 密码 iP': ER 
NiUSO 


目 定 光 Ix 


lw 芝 用 帐户 避 上 


厂 设置 帐户 截止 日 期 (E | 鲁 


友 设置 自 定 兴 的 密码 用 期 [5 
全 未 不 过 期 (Mi ”个 有 效 期 (x | | 


| 址 应 用 帐户 宵 定 策略 久 ) 





| 趟 应 用 密码 重用 策略 引 ) 


职 消 Bi | 


图 8-24 临时 禁用 访客 访问 功能 
(4) 启动 设置 


SAS 可 视 分 析 环 境 部 署 完成 后 ， 管 理 员 必须 了 解 服务 的 启动 顺序 。 许 多 客户 会 期 望 或 至 少 要 求 将 服务 配置 为 在 系统 启动 时 启动 。 大 部 分 服务 可 以 自动 执行 ， 但 根据 部 署 的 产品 及 其 
配置 ， 可 能 需要 编写 其 他 脚本 以 确保 所 需 的 服务 器 可 用 。 服 务 和 节点 越 多 ， 自 动 化 就 越 具 有 挑战 性 。 例 如 ， 如 果 SAS EBI 和 SAS Visual Analytics 部 署 在 同一 环境 中 ， 分 别 使 用 不 同 的 服 
务 器 ， 但 共享 元 数据 服务 器 。 系 统 重启 后 ， 则 两 个 产品 在 系统 重新 引导 之 后 启动 其 他 SAs 服 务 之 前 将 依赖 于 可 用 的 元 数据 服务 器 。ToolPool 工 具 通 过 配置 脚本 ， 可 以 实现 在 SAs Visual 
Analytics 部 署 的 节点 间 管 理 服务 的 启动 和 关闭 。 


(5) 创建 新 的 LASR 服 务 器 


在 安 半期 间 ， 已 经 创建 两 个 默认 服务 器 : LASR 分 析 服 务 器 (LASR Analytic Server) 和 公有 LASR 分 析 服 务 器 (Public LASR Analytic Server) 。 为 什么 我 们 还 需要 创建 新 的 SAS 
LAsR 分 析 服 务 器 呢 ? 因为 安全 要 求 、 服 务 器 不 同 配置 需求 (比如 ， 内 人 存 限制 、 生 命 周期 、 日 志 记录 和 自动 加 载 等 ) 和 客户 组 织 结构 (部 门 、 项 目 等 ) 需要 ， 我 们 需要 创建 新 的 LASR 分 
析 服 务 器 来 满足 各 种 不 同 的 需求 。 


在 SAS Visual Analytics 管 理 器 或 SAs 管 理 控制 台中 查看 所 有 的 LASR 服 务 器 。 表 8-11 列 出 了 预定 义 的 两 个 服务 器 的 区 别 。 


表 8-11 预定 义 的 两 个 LASR 分 析 服 务 器 的 区 别 


名 称 LASR 分 析 服 务 器 公有 LASR 分 析 服 务 器 


管理 员 可 以 导入 和 加 载 数据 的 输出 库 


所 有 注册 用 户 ( SASUSERS) 的 导入 和 加 载 数 


， | 据 的 默认 输出 库 
尘 部 对 此 库 具 有 读 取 权限 与 去 : 
|] 公有 LASR 分 析 服 务 器 支持 自动 加 载 数据 


库 与 Visual Analytics LASR 库 相 关联 Visual Analytics Public LASR 库 相 关联 


配置 Visual Analytics LASR 库 的 元 数 | 配 置 Visual Analytics 公 有 LASR 库 的 元 数据 在 
据 在 SAS Folder /Products/ SAS Visual | SAS Folder/Shared Data/ SAS Visual Analytics /Public 
Analytics Administrator 中 注册 中 注册 

Visual Analytics 公有 HDFS 库 和 Visual Analytics 
与 Visual Analytics HDFS 库 相 关联 公有 效 据 提 供 程 序 库 〈 加 载 到 公有 LASR 库 的 
数据 的 后 备 存 储 库 ) 相关 联 









元 数据 位 置 


对 应 的 Co-located 数据 
提供 库 


部 署 可 以 有 多 个 LASR 服 务 器 ， 如 图 8-25 所 示 ， 每 个 服务 器 有 一 个 或 多 个 用 户 连 接 ， 每 个 连接 可 以 有 多 个 关联 的 库 ， 每 个 库 可 以 有 多 个 表 。 





图 8-25 “多 个 LASR 服 务 器 、 用 户 、 库 和 表 的 关系 图 


创建 LAsR 分 析 服 务 器 的 步 又: 

1) 在 元 数据 中 定义 LASR 分 析 服 务 器 ; 

2) 在 元 数据 中 定义 LASR 分 析 服 务 器 库 ; 

3) 启动 LASR 分 析 服 务 器 ; 

4) 其 他 用 户 连接 LASR 分 析 服 务 器 进行 加 载 数据 和 探索 数据 ; 
5) 停止 LASR 分 析 服 务 器 。 


在 SAS 管 理 控制 台 定 义 LASR 服 务 器 时 ， 根 据 架 构 模式 ， 填 写 相 应 的 选项 ， 如 图 8-26 所 示 。 在 单机 服务 器 选项 中 ， 如 果 LASR 服 务 器 是 分 布 式 模式 ， 选 择 NO (默认 ) ; 如 果 是 非 分 
布 式 模式 ， 选 择 YES。 通 常 在 SAS Visual Analytics 7.3，TKGrid 部 署 在 /opt/sas/TKGrid 中 ，Hadoop 部 署 在 /opt/sas/hadoop，TKGrid 用 于 Hadoop 的 远程 嵌入 式 进程 部 署 
在 /opt/sas/TKGrid_REP 中 。 


LASR 授 权 服 务 ( 稍 后 部 分 将 详细 讨论 ) 管理 用 户 对 内 存 数据 的 访问 ， 在 创建 服务 器 时 应 该 选中 “使 用 LASR 授 权 服 务 ” 复 选 框 ， 如 图 8-27 所 示 。 







新 建 服务 回 向 导 
新 寻 甩 务 器 向 导 
请 畦 直下 列 服 务 器 届 ' 性 * 
单机 服务 心 : | 否 一 远程 数据 加 载 时 ， 应 该 为 / 
opt/sas/ TKRGrid REP 


High-Performance Analytics 环境 安 落 位 置 :|joptisasiTKirid== 


村 使 用 的 机 器 数 : mn 
高 组 选项 (DO),.， 


图 8-26 ”指定 LASR 服 务 器 架构 和 配置 信息 


独 建 慑 务 二 问 霹 


用 建 服务 栈 同 导 
信和 辆 小 注 接 属性。 





浪 口 写 ， loo1i 
High-Performance nalytics 环境 主机 |rdeesxl 1 109,race,sas,corn| 


LASR 按 标 服 荔 位 置 


Iw 车 用 LBSR 按 权 服务 ; [http:iirdcesxl 1109 ,race,sas,com: ?39830585L iSRAUthorization 


页 绢 迁 项 (DJ | 


< 上 一 步 fB) =| 了 消 | Sm | 





图 8-27 指定 LASR 授 权 服 务 


在 SMC 中 创建 SAS LASR Analytic Server 逻 辑 库 时 ， 如 果 从 HDFS 加 载 到 LASR 分 析 服 务 器 的 表 存 在 多 个 目录 结构 中 ， 则 需要 为 每 个 HDFS 目 录 创 建 一 个 逻辑 库 ， 因 为 HDFS 路 径 将 
成 为 SAs LASR Analytic server 逻 辑 库 的 服务 器 标记 。 服 务 器 标记 是 帮助 SAs LASR 授 权 服 务 将 每 个 内 存 表 映 射 到 对 应 的 元 数据 对 象 的 标识 符 。 服 务 器 标记 和 表 名 称 一 起 使 用 ， 以 匹配 
用 于 SAS LASR 分 析 服 务 器 中 的 表 的 名 称 ， 如 图 8-28 所 示 。 如 果 Co-located 数 据 提供 程序 是 HDFS， 则 此 值 必须 设置 为 源 文件 夹 路 径 。 源 文件 夹 路 径 采 用 “点 分 隔 ” 表 示 形 式 ， 

即 : /hps/my/path->hps.my.path。 如 果 Co-located 数 据 提供 程序 不 是 HDFS， 则 此 值 必须 与 位 于 Co-located 数 据 提供 程序 的 源 库 的 libref 值 匹配 。 即 : MyTDLib->MyTDLib。 如 果 
省 略 服务 器 标记 的 值 ， 则 会 使 用 服务 器 标记 WORK。 

















EEE x] 
请 袜 , 下 3 上 3 辑 库 展 性 * 
| 服务 器 标记 和 表 名 唯一 
标识 一 个 加 载 到 LASR 
遇难 库 引用 名 : [wkKLASR 分 析 服 务 器 的 表 
引 芝 : 





服务 器 标记 : [5ATE,Marketing 





新 建 .， | 
可 重新 加 载 LASR 数据 的 SAS 基础 库 高 如 选项 (O}..， | 


图 8-28 服务 器 标记 


在 Visual Analytics 管 理 器 的 LASR 表 客户 端 界 面 上 ， 如 图 8-29 所 示 ， 用 户 将 看 到 服务 器 标记 作为 LASR 表 名 称 的 前 缀 。 


| Li5R 服 表 各 LisR 表 * | LFS ”| 资产 监 帘 亚 
| 让 项 卡 初 如 化 时 本 职 杖 坟 


局 要 太 小 位 原 乞 和 

人 LEILTSTCT throducts /Shs Wisual h,,.. Pablic [LSR raly, TURMUELIC YA SANFLE SHALLINSENT 
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ErENTS Sh ed Datarshs Wiria... LESE nalytle Sr, .ll ETEN, EVENTS 
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[中 中国 Shared Data/shs Wirua.. LES nalytic Ser, .hl EIA. HENR 
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图 8-29 LASR 表 名 称 


数据 提供 程序 逻辑 库 指定 要 能 重新 加 载 LASR 数 据 的 库 ， 此 库 只 能 选择 SAAS BASE 逻 辑 库 。 单 击 新 建 ， 可 以 定义 新 的 SAS BASE 逻 辑 库 。 如 果 数 据 提供 程序 逻辑 库 要 用 作 导 入 数据 的 
后 备 存储 ,或 者 提供 用 于 并 行 加 载 的 分 布 式 存储 ， 那 么 该 库 将 包含 加 载 到 SAS LASR 分 析 服 务 器 的 源 数据 。 例 如 ，A 用 户 使 用 探索 器 从 外 部 文件 (如 CSV，XLS，XLSX) 加 载 数据 。 如 
果 创 建 的 LASR 逻 辑 库 已 定义 后 备 存储 ， 将 自动 在 数据 提供 程序 逻辑 库 中 创建 此 数据 的 副本 。 如 果 服 务 器 停止 ， 来 自 外 部 文件 的 数据 将 丢失 。 重 新 局 动 LASR 服 务 器 时 ， 来 自 外 部 文件 的 
数据 将 从 指定 的 数据 提供 程序 逻辑 库 中 重新 加 载 到 关联 的 LASR 逻 辑 库 中 。 


(6) 自动 加 载 


在 实际 生产 环境 中 ， 往 往 希 望 一 些 表 能 够 自动 加 载 到 LASR 服 务 器 中 。 自 动 加 载 功 能 定期 同步 在 指定 的 目录 中 的 内 存 数据 表 。 如 果 源 表 已 更 改 ， 表 在 内 存 将 会 被 刷新 。 如 果 源 表 在 
内 存 中 已 经 不 存 企 ， 该 表 将 被 自动 加 载 。 在 " 凶 载 "目录 中 的 表 能 够 从 内 人 存 中 自动 卸载 。 在 附加 目录 中 的 表 能 将 数据 添加 到 已 在 内 存 中 的 表 。 公 有 LASR 服 务 器 和 逻辑 库 在 配置 过 程 中 已 
经 创建 ， 具 有 自动 加 载 功 能 ， 也 可 以 手动 创建 专用 自动 加 载 的 LAsR 服 务 器 和 库 。 


账户 要 能 够 使 用 cron 调 度 任 务 ， 并 且 对 下 列 路 径 具 有 写 访问 权限 : 






































<SASCONFIG>/Levl1/Applications/SASVisualAnalytics/VisualAnalyticsAgdministrator 
<SASCONFIG>/Levl/Applications/SASVisualAnalytics/VisualAnalyticsAdministrator/Logs 








对 下 面 位 置 具 有 写 访 问 权限 的 用 户 可 以 通过 在 此 处 复制 表 来 加 载 表 ， 默 认 位 置 为 : 





<SASCONFIG>/Levl1/AppData/SASVisualAnalytics/VisualAnalyticsAdministrator/AutoLoad 














AutoLoad 的 一 个 好 处 是 你 不 必 启 动 服务 器 。 如 果 SAS LASR 分 析 服 务 器 停止 ， 则 下 一 次 启动 服务 器 运行 AutoLoad 会 从 放置 区 域 加 载 数据 。AutoLoad 和 AutoStart 的 组 合 可 以 确保 
在 启动 或 重新 启动 物理 服务 器 时 启动 LASR 服 务 器 。 但 是 ，AutoLoad 不 支持 分 布 式 数据 ，AutoStart 需 要 加 载 或 导入 操作 才能 启动 服务 器 。 


如 果 一 个 或 多 个 服务 器 的 LASR 逻 辑 库 启用 AutoStart， 则 SAS LASR 分 析 服 务 器 可 以 按 需 启动 。 如 果 服 务 器 尚未 运行 ， 用 户 具有 正确 的 权限 ， 并 且 请 求 加 载 或 导入 操作 ， 则 对 具有 
Autostart 的 LAsR 逻 辑 库 的 请 求 将 启动 天 联 的 SAs LASR 分 析 服 务 器 。 打 开 数 据 源 、 打 开 报 表 或 读 取 数据 的 探索 ,或 者 运行 数据 查询 的 请 求 都 不 会 触发 AutoStart。 要 启用 AutoStart, 
在 SAs 管 理 控制 台中 ， 右 键 单 击 LASR 逻 辑 库 ， 然 后 选择 属性 。 在 扩展 属性 上 选择 Autostart 并 将 值 从 no 更 改 为 yes， 如 图 8-30 所 示 。 
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es 





图 8-30 ”开启 LASR 服 务 器 AutoStart 功 能 


开启 AutoLoad 的 LASR Analytic Server 逻 辑 库 已 经 默认 对 SASUSERS 开 放 。 如 果 我 们 限制 库 的 访问 ，AutoLoad 的 LASR Analytic Server 逻 辑 库 可 以 是 私有 的 。 作 为 管理 公有 LASR 
分 析 服 务 器 的 用 户 ， 需 要 计划 AutoLoad 任 务 。 默 认 情 况 下 ，AutoLoad 任 务 将 每 15 分 钟 运行 一 次 (可 在 schedule.sh 脚 本 中 修改 ) 。 


对 于 每 个 LASR 逻 辑 库 ， 将 自动 使 用 默认 值 创建 扩展 属性 来 配置 LASR 逻 辑 库 的 AutoLoad 功 能 。 要 修改 扩展 属性 ， 请 访问 SAS 管 理 控制 台中 的 LASR 库 的 “属性 ”对 话 框 ， 如 图 8-31 
所 示 。 更 改 将 在 下 次 运行 AutoLoad 时 生效 。 


ial Analytics PFablic LASE"® EE 性 





dl 他 本 | 选项 | 注 轩 扩展 属性 | 搜 权 | 
一 .Ciefault,Mekbadak aFolder i Shared Datal>As cr 后 


2 vn. Butoload Autostat 上 
3 vA.AutoLoad,Enabled 电 用 访 返 辑 库 的 自动 加 读 寺 要 其 他 设置 ) 















|wa.autoLoad,Location | Os i 3,., | 让 到 辑 库 的 自动 加 手数 据 目 录 的 主机 位 置 
5 | wa.AutoLoad ,Sync.Enabled | 自动 加 束 同 步 的 党 属性 

6 a. ButoLoad, Sync.Import 时 电子 各 属 和 宫 分 隐 符 的 文件 
|.AutoLoad, Synec.Load fe: 从 自动 jp 攻 政 据 目录 加 哮 新 如 


8 A.AutoLoad,Sync.Refresh ™ 刚 | 新 其 源 表 有 新 时 间 缸 的 LASR 未 

9 A.AutoLoad, Sync.Append | 追加 Append 目录 中 的 如 

0 [va.AutoLoad, Sync.Unioad 天 我 Unload 目录 中 的 志 

M11 [vA.AutoLoad, Debwg.Enabled | 虽 用 自动 hg 鞭 调 试 

WA.Reloadon5tart,Enabled Yes 性 制 是否 为 1 放 区 疆 亩 层 用 思 动 时 加 才 

13 [vA.Reloadonstart, TableDefault Yes 网 二 地 加 到 加 昌 的 灯 来 否 已 名 用 议和 

14 wa.Reloadon5kart,Method al 哺 定 县 动 时 加 载 旺 应 用 于 "全 孝 " 各 迁 是 只 应 用 于 


图 8-31 设置 自动 加 载 的 扩展 属性 


为 LASR 库 设置 AutoLoad 需 要 在 操作 系统 级 别 和 元 数据 (安全 性 ， 脚 本 和 调度 ) 进行 配置 。 默 认 情况 下 ，AutoLoad 需 要 在 SAs Visual Analytics 根 节点 上 部 署 和 配置 3 个 不 同 的 目 


1) 执行 AutoLoad 操 作 的 SAS 代 码 位 于 SASHome 目 录 中 : 


<SASHOME>/SASVisualAnalyticsHighPerformanceConfiguration/7.3/Config/Deployment/Code/ 





注意 : 不 要 修改 此 内 容 ， 它 是 由 SAS 提 供 和 维护 的 一 组 组 件 。 


2) LASR AutoLoad Library 脚 本 文件 位 于 SAS 配 置 目录 中 的 Applications 目 录 下 : 


<SASCONFIG>/Levn/Applications/SASVisualAnalytics/VisualAnalyticsAdministrator 





注意 : 特定 于 每 个 AutoLoad 库 ， 此 内 容 必 须 复制 到 专用 目录 中 并 进行 修改 以 配置 新 的 LASR AutoLoad 库 。 
3) LASR AutoLoad Library 数 据 位 于 SAS 配 置 目录 中 的 AppData 目 录 下 : <SASCONFIG>/Levn/AppData/SASVisualAnalytics/VisualAnalyticsAdministrator/AutoLoad 


所 有 用 户 都 需要 对 此 位 置 具有 读 / 写 访问 权限 ， 可 能 需要 设置 特定 的 UMASK， 以 防止 其 他 用 户 覆 六 现 有 数据 。AutoLoad 目 前 只 支持 SAS 数 据 集 、Microsoft Excel 文 件 


(XLS/XLSX) 和 文本 文件 (逗号 分 隔 值 CSV) 。 


注意 : 必须 为 每 个 新 的 LASR AutoLoad 逻 辑 库 指定 一 个 后 备 存储 库 。 考 虑 到 存储 的 潜在 数据 量 ， 最 佳 做 法 是 将 后 备 存 储 库 重 定位 到 SAS 配 置 级 别 目录 之 外 。 
关于 AutoLoad 的 详细 信息 ， 具 体 请 参阅 “SAS Visual Analytics 7.3: 管理 员 指 南 ” 
(7) Reload-on-Start 服 务 


Reload-On-Start 对 存储 在 SAS Data Provider 逻 辑 库 中 的 源 表 的 副本 进行 加 载 。 此 功能 需要 为 LASR 逻 辑 库 定 义 一 个 SAS Data Provider 逻 辑 库 (作为 后 备 存储 库 ) 。 当 LASR 服 务 


器 被 启动 /重新 启动 时 ， 如 果 此 服务 器 定义 的 LASR 逻 辑 库 已 经 启用 Reload-On-Start 功 能 ， 则 存储 在 相关 联 的 Data Provider 逻 辑 库 中 的 SASs 表 将 被 自动 加 载 到 内 存 中 。 


Visual Analytics 公 有 LASR 逻 辑 库 的 后 备 存 储 位 于 目录 <SASCONFIG>/Levn/AppData/SASVisualAnalytics 人 VisualAnalyticsAdministratoPublicDataProvider。 属 性 


VA.ReloadOnstart.Enabled 指 定 逻 辑 库 是 否 启用 Reload-On-Start 功 能 ， 如 图 8-32 所 示 。 该 属性 也 影响 表 是 否 参与 Reload-On-Start。 对 于 新 表 ， 此 属性 不 人 存在。 相反 ， 表 是 否 参 与 
Reload-On-Sstart 由 VA.ReloadOnstart.TableDefault 属 性 决定 。 如 果 需 要 ， 用 户 可 以 手动 将 VA.ReloadOnstart.Enabled 属 性 添加 到 表 对 象 。 此 表 级 设置 仅 在 满足 以 下 两 个 条 件 时 有 


效 : 


为 所 在 库 启 用 Reload-on-start。 


. 所 在 库 的 VA.ReloadOnStatt.Method 设 置 为 Selective。 
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，[i 敲 轩 辑 库 自 动 加 竹 的 LASR 表 对 象 的 元 获 据 位 置 
自动 局 动 针对 i 敲 里 驾 库 的 所 有 加 和 副 请 求 的 LAS5R Se，.， 
忆 用 语 定 加 库 的 自动 加 红 “需要 其 他 放置) 

,| 读 坚 辑 库 的 自动 如 和 寺 笋 据 目 录 的 主机 位 置 
上 自动 加 墙 同 步 的 余 遇 性 
导入 电子 表格 和 带 分 陋 符 的 文件 
从 自动 加 载 数据 目录 加 载 新 表 
刷 灯 世 源 表 有 新 时 间 竹 的 145R 未 
追加 Append 目录 中 的 表 
部 载 Unload 目录 中 的 吉 

I PA AutoLoad. Debug.E Enabled 息 用 自动 加 吃 调 斌 

控制 量 稀 为 1 更 轩 加 库 届 用 乱 动 时 加 坊 

确定 漠 加 坚 1 刘 对 荆 库 的 新 表 旺 知已 晨 用 讼 置 

i 





a 


为 确定 每 下 的 数据 区 型 和 长 庙 而 需 扫 横 的 行政 
展开 字符 履 突 量 长 度 以 如 应 骏 字 节 字 和 罕 枉 数据 
每 个 玫 的 完整 单 节点 实 恒 数 





图 8-32 ”设置 Reload-on-start 的 属性 
(8) 审计 报告 


SAS Visual Analytics 可 以 审计 用 户 和 表 的 活动 ， 提 供 一 份 近似 于 实时 的 数据 报告 。 此 功能 默认 情况 下 并 未 开启 。 预 定义 库 和 表 将 自动 配置 为 该 报告 的 数据 源 。SAS 环 境 管理 器 
(EV) 将 记录 审计 数据 ，AutoLoad 过 程 收集 数 据 并 将 其 加 载 到 SAS 环 境 管理 器 自动 加 载 库 。 


在 SAS 管 理 控制 台 的 插件 中 可 以 设置 自动 审计 。 在 “插件 选项 卡 一 应 用 程序 管理 一 配置 管理 器 一 9ASs Application Infrastructure 一 Visual Analytics 7.3 一 右键 单 击 Visual 
Analytics 7.3 一 属性 一 高 级 选项 卡 ”， 如 图 8-33 所 示 ， 编 辑 va.AuditingEnabled 属 性 值 ( 值 应 为 true 或 false) 。 更 改 va.AuditingEnabled 值 后 ， 请 不 要 忘记 重新 启动 SAS Web 应 用 程 
序 服务 器 。 






sas. veh a referers. sipMethods 二 = EE | 


Ya re 






图 8-33 ”启动 审计 属性 


启动 管理 报告 库 (EVDMLA) 的 AutoLoad， 具 体 配置 如 下 : 
1) 选择 一 个 运行 该 进程 的 用 户 


2) 在 EVDMLA 配 置 目录 (Data 和 Scripts) 上 设置 适当 的 安全 性 


Data : 
<SASCONFIG>/Levn/AppData/SASVisualAnalytics/VisualAnalyticsAdministrator/AutoLoad/EVDMLA 
Scripts: 

<SASCONFIG>/Levn/Applications/SASVisualAnalytics/VisualAnalytics 

Administrator/ EVDMLA 





3) 运行 schedule.sh 以 计划 进程 
4) 执行 一 些 任 务 去 生成 审核 记录 


30 分 钟 后 使 用 SAS Visual Analytics 管 理 器 去 验证 EVDM.audit visualanalytics 是 否 已 在 LASR 表 选项 卡 中 加 载 ， 打 开 该 报告 。 关 于 审计 报告 的 更 多 信息 ， 请 参考 8.2.3 节 中 的 环境 监 
控 部 分 。 


注意 : 如 果 EV 数 据 集 和 SAS Visual Analytics 的 计算 服务 器 ( 即 自动 加 载 目 录 的 位 置 ) 是 在 不 同 的 计算 机 上 ， 则 需要 将 SAS Visual Analytics 计 算 服 务 器 的 配置 目录 挂 载 到 EV 服 务 器 的 
机 器 上 。 大 多 数 EV 数 据 集 和 SAS Visual Analytics 计 算 服 务 器 都 部 署 在 同一 台 主 机 上 ， 所 以 不 需要 更 多 的 配置 。 


(9) SAS Mobile BI 


SAS Mobile BI 适 用 于 iPad 和 iPhone， 通 过 兼容 设备 上 的 iTunes Store 安 装 ， 适 用 于 iOS 7.0+ 操 作 系 统 。SAS Mobile Bl 也 适用 于 Android 操 作 系 统 ， 在 兼容 设备 上 使 用 Google 
Play 账户 下 载 安 装 ， 适 用 于 系统 版 本 为 Android 4.1+、Android 4.4 和 5.0 手 机 及 平板 电脑 。 具 体 版 本 信息 ， 请 参阅 SAS 官 方 文档 。 


在 SAS Mobile Bl 里 ， 指 定 连 接 服务 器 ， 输 入 所 需 详 细 信 息 就 可 以 查看 报表 。 根 据 网 络 连 接 ， 可 能 首先 需要 进行 VPN 连 接 。 


2. 系 统 验 证 


验证 是 部 署 的 重要 组 成 部 分 。 通 过 执行 验证 活动 可 以 进一步 证 实 系统 部 署 成 功 。 虽 然 安装 和 配置 可 能 没有 错误 或 警告 ， 但 必须 测试 部 署 的 主要 功能 ， 以 确保 其 正常 工作 。 在 可 视 化 
分 析 的 分 布 式 架 构 环境 里 ， 如 果 下 列 五 项 验证 通过 ， 则 可 以 认为 整个 部 署 成 功 。 


(1) SAS 高 性 能 计算 管理 控制 台 验 证 

1) 登录 到 SAS 高 性 能 计算 管理 控制 台 ，http://rootnode:10020，; 

2) 使 用 SSH 密 钥 跨 节点 创建 和 传播 新 测试 用 户 ; 

3) 以 新 用 户 身份 登录 (SSH) 到 根 节 点 

4) 使 用 SSH 连 接 到 群集 中 的 另 一 个 节点 ; 

5) 如 果 成 功 ， 请 退出 所 有 节点 ; 

6) 从 所 有 节点 中 删除 测试 用 户 ; 

7) 注销 SAS 高 性 能 计算 管理 控制 台 。 

(2) Co-located 数 据 提供 模式 的 Hadoop 验 证 方法 

1) 打开 HDFS 运 行 状 况 网 页 -http://namenode:50070; 

2) 验证 “Live Nodes” 是 否 与 了 预期 匹配 ; 

3) 验证 “配置 容量 ”是 否 与 数据 节点 容量 匹配 ; 

4) 选择 顶部 的 “Datanodes” 以 查看 操作 中 的 节点 ; 

5) 选择 “实用 程序 。” “浏览 文件 系统 ”以 验证 现 有 文件 系统 ; 

6) 在 HDFS 中 加 载 、 验 证 和 删除 测试 文件 ; 

7) 如 果 配 置 了 YARN， 打 开 YARN 网 页 http://namenode:8088; 

8) 如 果 配 置 了 MapReduce 作 业 历 史记 录 ， 打 开 作 业 历 史记 录 网 页 http://namenode:19888。 
(3) SAS 高 性 能 分 析 环 境 验 证 方法 

使 用 监视 网 络 性 能 的 gridmon-Java 工 具 。gridmon 很 重要 ， 如 果 gridmon 不 工作 ，LASR 监 视 器 将 不 能 工作 ， 这 将 导致 在 SDW 中 配置 时 出 问题 。gridmon 有 两 种 模式 : 
` 文本 模式 : 提供 所 有 节点 的 性 能 指标 的 文本 报告 

- 图 形 模式 : 提供 GUI 的 性 能 报告 。 在 实践 操作 中 ， 常 使 用 GUI 模式 。 

gridmon 工 具 在 TKGrid 安 装 路 径 下 的 bin 目 录 里 ， 执 行 “/.../TKGridybin/gridmon.sh” 局 动 。 
(4) SAS Visual Analytics Hub 验 证 方法 

配置 结束 后 生成 instructions.html 文 件 。 文 件 里 提供 一 些 基 本 验证 ， 但 它 不 验证 Web 应 用 程序 。 下 面 步骤 是 用 户 常用 的 一 些 操作 。 
1) 在 元 数据 中 定义 账户 和 组 ; 

2) 创建 元 数据 文件 夹 和 更 改 权限 ; 

3) 使 用 SAS Visual Analytics 管 理 器 启动 /停止 SAS LASR 分 析 服 务 器 ; 

4) 将 SAS 数 据 集 加 载 到 SAS LASR 分 析 服 务 器 ; 

5) 计划 SAS Visual Analytics 任 务 ; 

6) 使 用 Visual Data Builder 创 建 和 执行 数据 查询 ; 

7) 使 用 Visual Analytics Explorer 探 索 数 据 ; 

8) 创建 SAS 可 视 化 分 析 报 表 ; 

9) 创建 统计 模型 (如果 已 获得 SAS Visual Statistics 许 可 ) 。 

(5) 移动 设备 客户 端 验证 方法 


1) 启动 SAs Mobile BI 应 用 程序 ; 


2) 创建 与 服务 器 的 连接 ; 
3) 打开 和 查看 报告 ; 


4) 订阅 报告 。 
3. 系 统 调 优 


系统 优化 是 系统 管理 员 要 考虑 的 问题 。 如 何 扩大 系统 每 秒 钟 处 理 的 请 求 数 ” 如 何 减 小 系统 延迟 ”在 系统 中 ， 请 求 数量 过 大 ， 系 统 太 繁忙 ， 则 响应 速度 就 会 降低 ; 响应 越 快 ， 说 明 系 
统 能 处 理 越 多 的 请 求 。 系 统 调 优 有 很 多 方面 ， 这 里 着 重 介绍 下 面 三 项 调 优 。 其 余 详 细 内 容 请 参阅 “SAs Visual Analytics 7.3: 管理 员 指南 ”。 


(1) 优化 SAS Visual Analytics Transport Service 


通过 控制 客户 并 行 订 阅 报告 请 求 的 数量 来 优化 移动 客户 端的 性 能 。 在 “SAS 管 理 控制 台 -> 应 用 程序 管理 ->SAS Application Infrastructure->Visual Analytics7.3->Visual 
Analytics Services 7.3->Visual Analytics Transport Service 7.3 属 性 -> 高 级 选项 卡 ” 中 ， 如 图 8-34 所 示 ， 设 置 “vat.subscribe.concurrentRequestLimit.guest=10”， 提 高 并 发 请 
求 数量 。SAS Web 应 用 程序 服务 器 需要 重新 启动 才能 生效 。 


< Yisnal Analytics Transport Service T.3 了 ”车 性 
常规 | 内 部 连接 | 外 部 和 连接 高 级 | 控 权 | 


EN 


WE end aT ld |10 


Hi 


图 8-34 设置 订阅 并 发 请 求 数据 
(2) 优化 LASR 资 源 管理 


TKGrid 提 供 了 resource.settings 文 件 来 管理 LASR 服 务 器 ， 人 允许 用 户 或 应 用 程序 控制 内 存 和 CPU 的 使 用 (如 下 表 ) 。 文 件 中 包含 的 环境 变量 在 分 析 环 境 启动 时 被 设置 。 资 源 设置 文 
件 格式 是 shell 脚 本 ， 位 于 TKGrid 主 目录 ， 例 如 : /opt/sas/TKGrid/resource.settings。 





if [ "SUSER" = "lasradm" ]; then 

Custom settings for any process running under the lasradm account. 
export TKMPI ULIMIT="-V 50000000" 

export TKMPI MEMSIZE=50000 

export TKMPI CGROUP="Cgexec -9g cpu:75" 

fi 


: 大寿 大 大 井 井 


(3) 优化 JVM 内 存 


SAS 9.4 现 在 使 用 SAs Web 应 用 服务 器 作为 中 间 层 应 用 程序 服务 器 。SAS Visual Analytics 7.3 在 安装 和 配置 时 部 署 多 个 Web 应 用 程序 。 许 多 Web 应 用 程序 是 非常 大 的 。 因 此 ， 启 
动 应 用 程序 服务 器 可 能 要 花 很 长 的 时 间 。 通 过 更 改 几 个 配置 ， 就 可 能 提高 启动 的 性 能 。 


在 中 间 层 配置 时 提供 了 设置 配置 大 小 的 选项 ， 三 个 可 用 选项 : 大 型 、 中 型 和 小 型 。 此 选项 确定 了 SAS Web 应 用 程序 服务 器 和 SAS Web 服 务 器 的 JVM 内 存 设置 的 初始 值 。 当 选 
择 “ 典 型 ”或 “ 自 定 义 ”配置 时 ， 可 以 修改 JVM 默 认 值 ， 建 议 更 新 为 推荐 值 。 使 用 “多 个 管理 服务 器 ”时 ，SAs 部 署 向 导 将 部 署 SAs Visual Analytics 7.3 Web 应 用 程序 分 为 三 个 
JVM (SASServer1、SASServer2 和 SASServer12) 。 所 有 SAS Visual Analytics 应 用 程序 都 位 于 SASsserver12 中 。 编 辑 表 8-12 中 的 文件 ， 修 改 JVM 各 选项 设置 。 所 有 JVM 配 置 在 Web 
应 用 服务 器 重启 后 才 生 效 。 


表 8-12 设置 JVM 的 配置 文件 


Linux <SASCONFIG>/Levl/Web/WebAppServer/SASServerX 1/bin/setenv.sh 


<SASCONFIG>\Levl\Web\WebAppServer\ SASServerX 1l\conf\wrapper.conf 
<SASCONFIG>\Levl\Web\WebAppServer\SASServerX 1\bin\setenv.bat 


Windows 


默认 JVM 选 项 -单个 JVM ， 具 体 参数 的 含义 ， 请 参阅 表 8-13。 


-Xms1024m 

—Xmx4096m 

—XX: PermSize=768m 
—XX:MaxPermSize=1280m 
—XX:NewRatio=8 
—Xss256k 








建议 修改 为 “在 配置 元 数据 服务 器 时 ， 通 过 选择 LARGE 来 设置 这 些 选项 ”。 





-Xms8192m 

—Xmx8192m 

—XX: PermSize=1536m 
—XX:MaxPermSize=1536m 
—XX:NewRatio=8 
—Xss256k 





表 8-13 JVM 参 数 解析 


参数 名 称 含义 对 应 英文 
Xms1024m 表示 JVM Heap( 堆 内 存 ) 最 小 尺寸 1024MB ， 初 始 分 配 initial Java heap Size 


Xmx4096m 表示 JVM Heap( 堆 内 存 ) 最 大 允许 尺寸 4096MB， 按 需 分 配 maximum Java heap size 
表示 虚拟 机 为 Java 永久 生成 对 象 分 配 内 存 的 最 小 尺寸 | initial size of Permanent 
768MB ， 初 始 分 配 Generation 
XX:MaxPermSize=| 表示 虚拟 机 为 Java 永久 生成 对 象 分 配 内 存 的 最 大 允许 分 配 | maximum size of Permanent 
1280m 尺寸 1280MB ， 按 需 分 配 Generation 
年 轻 代 (包括 Eden 和 两 个 Survivor 区 ) 与 年 老 代 的 比值 | ratio of young generation to 
(除去 持久 代 ) 为 18， 年轻 代 占 整个 堆栈 的 1/9 old generation 
Xss256k 每 个 线程 的 堆栈 大 小 为 256KB thread stack size 


XX:PermSize=768m 





XX:NewRatio=8 






多 个 JVM 时 ， 默 认 JVM 选 项 如 表 8-14 所 示 。 


表 8-14 多 个 JVM 时 的 选项 


建议 修改 为 表 8-15。 


表 8-15 ”修改 后 的 JVM 选 项 


更 多 信息 ， 请 参考 SAS 官 方 文档 。 


8.2 ”企业 级 应 用 的 管理 和 安全 


在 不 断 膨胀 的 数据 面前 ， 为 了 能 够 保证 企业 环境 正常 运行 ，SAs 可 视 化 分 析 为 用 户 提供 了 更 多 的 灵活 性 来 管理 和 加 载 所 需 的 数据 ， 同 时 结合 了 先进 的 数据 可 视 化 、 易 用 的 管理 界面 
实时 显示 系统 当前 使 用 情况 ， 支 持 多 种 安全 设置 保证 企业 数据 的 安全 性 。 


本 节 您 将 能 够 了 解 SAS 可 视 化 分 析 环 境 中 用 户 和 组 的 定义 ， 系 统管 理 员 如 何 来 管理 环境 和 LASR 服 务 器 、 监 控 系 统 资源 、 描 述 用 户 如 何 进行 身份 认证 、 实 现 数据 自动 加 载 、 实 施 审 
计 和 管理 移动 设备 。 


8.2.1 ”管理 概述 
SAS 可 视 化 分 析 是 一 个 复杂 的 环境 ， 要 完成 许多 管理 工作 才能 保持 系统 正常 运行 。 SAS 可 视 化 分 析 管 理会 涉及 多 个 用 户 角色 ， 我 们 将 专注 于 SAS Visual Analytics 7.3 的 特定 任务 ， 
讲述 管理 分 布 式 环境 和 非 分 布 式 环境 之 间 的 关键 差异 ， 以 及 常规 SAS 平 台 管理 任务 的 相关 知识 和 管理 工具 。 


在 SAS 可 视 化 分 析 环 境 里 ,管理 员 要 定义 必要 的 资源 、 管 理 用 户 和 资源 、 监 控 环 境 、 提 供 活动 报告 并 维护 日 党 系统 和 安全 。 下 面 是 常用 的 管理 工具 ， 图 8-35 列 出 了 各 个 管理 工具 适 
用 于 哪些 管理 工作 。 


. SAS 管 理 控制 台 (SMC) 可 以 添加 /删除 用 户 ， 分 配 组 和 角色 ， 应 用 元 数据 安全 ， 管 理 文 件 夹 ， 定 义 服 务 器 ， 管 理 数据 库 ， 升 级 内 容 ， 查 看 客户 端 连 接 等 。 在 配置 管理 里 ， 创 建 / 
修改 应 用 程序 扩展 属性 ， 履 盖 现 有 限制 和 自 定义 环境 。 


Visual Analytics 管 理 器 (VAA) 可 以 启动 /停止 LASR 服 务 器 ， 查 看 LASR 服 务 器 和 表 的 状态 ， 将 数据 加 载 到 LASR 或 HDFS， 实 时 监控 系统 资源 ， 查 看 管理 报告 ， 将 行 级 安全 性 应 用 


于 内 存 表 和 管理 移动 设备 。 


. SAS 环 境 管理 器 (SAS Envitonment Managef， 简 称 EV) 可 以 监控 服务 和 系统 级 资源 ， 设 置 警报 、 审 计 和 历史 指标 效果 报告 ， 控 制 大 多 数 服务 和 网 络 应 用 程序 的 操作 ， 将 用 户 分 配 
到 组 和 角色 。 


. SAS 高 性 能 计算 管理 控制 台 (HPCMC) 可 以 添加 /删除 操作 系统 账户 ， 添 加 /删除 OS 组 和 分 发 SSH 密 钥 。 

* GridMonitot 应 用 程序 仅 适 用 于 Linux 系 统 ， 可 以 监控 所 有 SAS Visual Analytics 节 点 的 实时 CPU 和 内 存活 动 ， 以 及 跨 节 点 分 布 的 工作 负载 的 视图 。 
. DFSHEALTH Web 应 用 程序 是 Hadoop 的 管理 工具 ， 可 以 监控 HDFS 节 点 ， 查 看 节点 可 用 性 ， 节 点 容量 ， 浏 览 HDFS 文 件 系 统 和 记录 。 

"SAS 代码 可 以 启动 和 停止 LASR 服 务 器 ， 加 载 和 镍 载 数 据 ， 在 元 数据 中 注册 表 等 。 平 台 对 象 框 架 可 以 设置 行 级 安全 ， 备 份 还 原 和 内 容 升 级 。 


* OS 命令 和 工具 ， 比 如 Linux 系 统 命令 : top、free、ps、vmstat 等 ，Windows 系 统 中 的 perftmon， 系 统 事件 查看 器 等 。Hadoop 命 令 可 以 设置 权限 、 管 理 文件 、 重 新 平衡 数据 。 这 些 代 


码 ， 命 令 和 工具 都 可 以 实现 管理 工作 。 


管理 资源 维护 


SAS 官 理 控制 总 (SMC 证 
SAS Environment Manar EV 
igh Performance Computng Man 
DFSHEALTH Web Application 9 
其 仙 代 码 / 贡 仿 / 工 县 
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pp 
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图 8-35 ”管理 工具 的 功能 
1. 资 源 管理 
资源 管理 主要 是 自动 开始 /停止 服务 器 ， 系 统 启动 时 重新 加 载 数据 ， 整 理 元 数据 文件 来 ， 定 义 新 的 LASR 服 务 器 和 定义 数据 库 。 


(1) 服务 器 启动 /停止 


SAS Visual Analytics 环 境 包括 SAs 智 能 平台 服务 器 和 SAs Visual Analytics 所 需 的 其 他 服务 器 ， 具 体 取决 于 部 署 模 式 (是 否 分 布 ) 。 环 境 部 署 成 功 后 ， 图 8-36 列 出 的 服务 器 使 用 提 
供 的 脚本 就 可 以 正常 启动 或 停止 。 


SAS 智 能 平台 服务 器 由 位 于 每 个 SAS 配 置 级 别 目录 中 的 sas.servers[.*] 脚 本 管理 。 这 些 脚本 仪 支持 单机 部 署 ， 不 能 在 多 计算 机 环境 中 管理 服务 器 /代理 。sas.servers[.*] 脚 本 不 管理 
SAS 信 息 检索 Studio 服 务 器 、SAS LASR 分 析 服 务 器 监视 器 、Hadoop 和 SAS 高 性 能 计算 管理 控制 台 。 管 理 员 需 要 创建 自己 的 脚本 来 管理 这 些 服务 器 。 


| 分 布 式 非 分 布 式 
天 


SAs Intelllgence Platform Servers 





SAS Web Infrastructure Data Server 1 和 
oA ETVers Tler 
Mid- Tlier Servers 
SAS LASR Analytic Senver | | 
SAs Information Retneval Studio Sernver | | 
AD LASR Analytic Senver Monitor y 
SAS HIigh-Performance Computing Nianagement Console | 


CoOo-Located Data Provider 
Hadoop 


图 8-36 “分布 式 、 非 分 布 式 架构 部 署 的 服务 器 


SAS Visual Analytics 可 以 通过 Visual Analytics 管 理 器 应 用 程序 、SAS 程 序 、AutoStart 功 能 来 启动 或 停止 LASR 服 务 器 。 关 于 服务 器 启动 顺序 ，LASR 服 务 器 只 能 在 SAS 元 数据 服务 
器 和 SAS 中 间 层 服务 器 运行 后 启动 。SAS LASR 授 权 服 务 使 用 元 数据 服务 器 和 SAS 中 间 层 在 向 LASR 服 务 器 发 出 请 求 时 进行 授权 决策 。 


(2) Visual Analytics 管 理 器 


通过 Visual Analytics 管 理 器 ， 管 理 员 可 以 停止 和 局 动 LASR 服 务 器 ， 以 及 向 内 存 加 载 或 卸载 表 ， 还 可 以 设置 表 的 权限 并 应 用 行 级 安全 性 。 为 了 安全 起 见 ， 请 保留 白 名 单 或 黑 名单 
(例如 : 丢失 或 被 盗 的 设备 ) 。 提 供 报告 中 定义 的 所 有 警报 的 集中 视图 ， 便 于 管理 员 维 护 。 


在 文件 菜单 的 首选 项 里 ， 管 理 员 可 以 设置 应 用 程序 服务 器 ， 如 图 8-37 所 示 ， 指 定 使 用 哪个 ?As 应 用 程序 服务 器 一 一 默认 为 自动 选择 ， 但 管理 员 可 以 从 所 有 人 列 出 的 服务 器 中 进行 选 








”参数 选择 x 
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图 8-37 选择 SAS 应 用 服务 器 


在 管理 环境 页 面 可 以 设置 资源 监视 器 样本 率 和 进程 监视 器 采样 率 ， 如 图 8-38 所 示 ， 选 择 “ 显 示 用 于 测量 性 能 的 进程 ” ， 可 以 查看 和 监视 衡量 性 能 的 进程 。 默 认 情况 下 ， 这 些 进程 
在 过 程 监视 器 的 图 中 已 经 被 过 滤 。 如 果 选 中 “使 用 SAs 语 句 记录 操作 ″， 则 管理 员 操作 生成 的 代码 将 追加 到 单个 文件 或 在 指定 路 径 创建 一 个 单独 的 文件 来 保存 。 


注意 : 其 中 一 些 首 选项 与 非 分 布 式 环境 不 相关 ， 不 会 在 该 环境 中 显示 。 
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| 确定 || 职 消 | 
图 8-38 设置 管理 环境 参数 


Visual Analytics 管 理 器 使 用 的 SAAS 应 用 程序 服务 器 必须 在 作业 执行 服务 中 注册 ， 并 且 用 户 必须 具有 对 应 用 程序 服务 器 的 ReadMetaData 访 问 权 限 。 图 8-39 说 明了 如 何在 SAS 管 理 
控制 台中 使 用 作业 执行 服务 注册 应 用 程序 服务 器 。 访 问 JobExecutionService 属 性 后 ， 将 服务 器 从 “可 用 ”列表 移动 到 “已 选择 ”列表 。 在 元 数据 中 注册 的 任何 SAS 应 用 程序 服务 器 都 
将 显示 在 可 用 列表 中 。 更 改 注册 时 ， 更 改 将 在 SAS Web 应 用 程序 服务 器 重新 启动 后 才 生 效 。 


ssJTobFrecotionservice” 医 性 


条 统 属性 
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作业 队列 轴 大 线程 数 (X) P 
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图 8-39 ”作业 执行 服务 中 注册 应 用 程序 服务 器 


在 文件 夹 窗 格 里 ， 可 以 管理 表 上 的 行 级 安全 性 ， 如 图 8-40 所 示 ， 在 库 中 注册 和 更 新 表 ， 加 载 表 到 LASR 服 务 器 内 存 和 HDFS， 删 除 表 的 元 数据 定义 。 


LASR 服务 器 关 | LASR 表 关 | 资源 监视 器 关 | 进程 监视 器 关 | EDFS 关 | 团 W SAMPLE_RANECAMPATGN ( 具 读 ) * 
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图 8-40 表 的 行 级 安全 性 设置 


在 LASR 服 务 器 界面 里 ， 可 以 启动 /停止 LASR 服 务 器 ， 如 图 8-41 所 示 ， 往 LASR 服 务 器 中 加 载 表 ， 限 制 LASR 服 务 器 可 用 于 加 载 表 的 内 存量 (MB) 。 当 LASR 分 析 服 务 器 接受 加 载 表 ， 
直到 达到 或 超过 限制 内 存 时 ，LASR 分 析 服 务 器 状态 将 更 改 为 “ 超 容量 ”。 


LIN ESE 





文件 视图 LasR 工具 帮助 





LASE 服务 器 * | LASR 表 ”| 资源 监视 器 “| 进程 监视 器 *| ImFs * 
时 六 了 癌 | 是 四 [] 选项 卡 初始 化 时 获取 状态 








L_ | 服务 情 状 普 虚拟 舟 存 表 内 存 加 B) 表 限 制 WEB) 主机 - 


加 | LSR hnalvtic Serwver 一 rdcesxllin 3 名 ] , rdcesxll109.... 
| Fublic LASE Pnalvytic Server 一 r... 昌 锅 ] | rdcesxlli09.... 








图 8-41 LASR 服 务 器 管理 


在 LASR 表 界面 里 ， 如 图 8-42 所 示 ， 可 以 加 载 一 个 新 的 LASR 表 ， 同 时 重新 加 载 、 卸 载 和 删除 一 个 或 多 个 LASR 表 。 


口 D IE 





x 件 ”视图 Is 工 县 帮助 







LASR 服务 器 * | LAsR 表 x | 资源 监视 器 * | 进程 监视 器 *| IDFS > 
品 二 Gi 而 面 | 亡 选 硕 上 初始 化 时 获取 状态 














去 拱 总 太 小 位 音 服务 恬 加 载 时 间 | 砚 明 这 
| | Yh_SAMPLE_SMALLINSIGHT /Froducts/Shs Visual h... Fublie ... 
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加 | EYENT4 这 到 塌 图 /Shared Data/Shs Visua... LASR hn... 
| 面 帅 除 
回 | Fa 况 图 /Shared Data/Shs Visua... LASR hn... 
区 革职 忧 态 E 
十 | SET 图 上 一 操作 日 志 /Shared DatarShs Visua... LASR hn... 
:| 加] | GRID /Shared DatarShs Visua... LASR hn... 
hb | | HOSTPLATEUER iShared DatalShs Visua... LASK hn... 

















图 8-42 LASR 表 管理 


在 HDFS 工 具 里 ， 如 图 8-43 所 示 ， 可 以 删除 存储 在 HDFS 中 的 数据 ， 还 可 以 使 用 “./hadoop fs” 命 令 管 理 HDFS。 如 果 关 闭 HDFS， 则 无 法 访 间 存储 在 HDFS 中 的 数据 ， 但 LASR 中 
的 数据 可 以 继续 使 用 。SAS Visual Analytics 不 依赖 HDFS 工 作 。 


LN EGSED 





人 御 ”视图 LasR 工 县 帮助 





LASR 服务 器 ”| LASF 表 “| 资源 监视 器 ”| 进程 监视 器 “| IDFS * 
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图 8-43 ”HDFS 管 理 


在 移动 设备 工具 里 ， 查 看 有 关 为 用 户 设置 的 移动 设备 的 数据 ， 如 图 8-44 所 示 。 显 示 的 数据 包括 用 户 I1D、 设 备 1D、 设 备 类 型 、 设 备 型 号 、 操 作 系统 版 本 、 应 用 程序 版 本 、 状 态 和 时 
间 戳 。 黑 名 单 中 列 出 的 移动 设备 无 法 访问 服务 器 ， 即 : 丢失 或 被 盗 的 移动 设备 。 黑 名 单 在 安装 时 默认 为 启用 。 日 名单， 只 有 列表 中 的 移动 设备 才能 授权 访问 SAS Visual Analytics 环 
境 。 在 SMC 中 修改 属性 可 启用 白 名 单 。 





LASR 服务 器 *| LASE 表 *| 资源 监视 器 “| 进程 监视 器 *| IDFs *| 移动 设备 x | 
L$ | 强制 使 用 : | 黑 名 单 ”| * | 回 


登录 历史 | 黑 名 单 | 白 名 单 | 管理 历史 | 
过 法 器 : | 【无 ) | 应 用 
用 户 瑟 。 “设备 2 设备 类 型 设备 型 号 操作 .. 





图 8-44 ”移动 设备 管理 


在 管理 提醒 工具 里 ， 如 图 8-45 所 示 ， 列 出 了 所 有 报表 中 添加 的 提醒 ， 可 以 删除 任何 订阅 的 提醒 。 具 有 管理 环境 权限 的 任何 人 都 可 以 访问 管理 提醒 工具 。 提 醒 的 短信 或 者 邮件 发 送 
要 求 订阅 者 的 元 数据 用 户 定 义 中 有 相应 的 配置 。 提 醒 存 储 在 中 间 层 的 SharedServices 数 据 库 中 ， 由 SAS Visual Analytics Hyperlink 服 务 执行 评估 ， 日 志文 件 存放 在 
<SASCONFIG>/Levn/Web/Logs/SASServer1 1/SASVisulAnalyticsHyperlink7.3.log., 


LASR 服务 器 *| LASR 表 * | 资源 监视 器 * | 进程 监视 器 * | jnFs * | 移动 设备 * | 管理 提醒 * 


4 
订户 控 隆 类 型 报表 创建 日 期 
Sasdemna 


Visualhnalvtics. Metric. hert User FolLdersrsasdemorily Folderi... 2017 年 | 月 17 日 星期 二 ， 


图 8-45 ”提醒 管理 
(3) 数据 管理 


管理 SAS Visual Analytics 环 境 中 最 重要 的 任务 之 一 是 表 管理 ， 因 为 如 果 特 定 LASR 服 务 器 中 未 加 载 所 需 数据 ， 则 无 法 使 用 相关 的 报表 和 探索 。 而 SAS Visual Analytics 不 提供 任何 
工具 来 帮助 管理 员 确 保 在 系统 启动 或 重新 启动 时 用 于 报告 和 分 析 的 内 存 数据 可 用 。 


数据 加 载 是 将 数据 提取 到 LASR 分 析 服 务 器 中 的 内 存 的 过 程 。 默 认 情况 下 ， 内 存 表 是 临时 的 ， 并 且 只 在 LASR 服 务 器 运行 时 存在 。 这 个 动作 看 起 来 很 简单 ， 但 是 由 于 内 存 中 数据 的 本 
质 ， 它 更 复杂 。 可 以 使 用 不 同 的 策略 /技术 将 数据 加 载 到 LASR 中 ， 每 种 技术 呈现 其 自己 的 优点 和 缺点 ， 并 引起 不 同类 型 的 管理 问题 。 


. 管理 员 使 用 SAS Visual Analytics 管 理 界 面 交互 操作 


使 用 SAS Visual Analytics 管 理 器 应 用 程序 加 载 LASR 表 时 ， 表 对 象 和 SAS LASR 表 加 载 作 业 对 象 将 自动 注册 到 元 数据 中 。 这 将 注册 有 关 LASR 表 数据 源 (初始 物理 数据 ) 的 所 有 必需 信 
息 。 如 果 需 要 ， 管 理 员 可 以 从 此 数据 源 重新 加 载 表 。SAS 元 数据 中 的 LASR 表 定义 不 包含 有 关 数 据 源 的 信息 ， 但 是 SAS LASR 表 加 载 作 业 对 象 包含 数据 源 信息 


. 如 果 管 理 员 允 许 用 户 使 用 自助 导入 功能 ， 就 可 以 在 SAS Visual Analytics 的 报表 设计 器 、 探 索 器 和 数据 准备 接口 进行 交互 。 


自助 导入 功能 是 在 报表 设计 器 、 探 索 器 或 者 数据 准备 中 执行 的 数据 导入 。 在 这 种 情况 下 ，LASR 表 及 其 数据 源 之 间 的 链接 是 断 开 的 ， 无 法 重新 加 载 ; 管理 员 也 无 法 控制 内 存 中 的 数 
据 ， 对 资源 使 用 失去 控制 。 默 认 情 况 下 ， 部 署 和 配置 后 启用 自助 导入 功能 。 我 们 强烈 建议 禁用 它 ， 特 别 是 在 生产 环境 ， 直 到 用 户 接受 培训 后 真正 了 解 这 项 服务 之 后 再 启用 。 


. 通过 SAS Studio、SAS Enterprise Guide 或 SAS 命 令 行 等 使 用 SAS 代 码 


具有 权限 的 管理 员 和 用 户 可 以 使 用 SAS 代 码 从 LASR 库 直接 向 LASR 服 务 器 加 载 数据 。 数 据 源 可 以 是 SAS 数 据 集 、 文 本 文件 、Mictosoft Excel 文 件 、RDBMS 表 和 ODBC 表 等 。 数 据 源 库 
必须 基于 所 需 的 Libname 引 人 擎 进行 定义 。 使 用 SAS 代 码 加 载 数据 时 ， 不 会 向 SAS 元 数据 服务 器 注册 SAS LASR 表 加 载 作 业 对 象 和 LASR 表 对 象 ， 因 此 无 法 自动 重新 加 载 该 表 。 为 了 能 够 重新 
加 载 数据 或 者 重用 SAS 代 码 ， 管 理 员 必须 编写 SAS 代 码 来 完成 SAS 表 在 SAS 元 数据 服务 器 里 的 注册 。 


(4) 支持 报表 分 发 (Report Distribution) 


报表 设计 器 的 用 户 可 以 分 发 报表 。 分 发 报表 会 自动 将 更 新 的 内 容 发 送 给 报表 用 户 。 系 统 可 以 分 发 报表 一 次 或 以 重复 的 间隔 (例如 每 天 、 每 周 或 每 月 多 次 ) 分 发 报表 。 此 外 ， 通 过 分 
发 报表 ， 用 户 可 以 创建 时 间 事件 ， 以 便 在 非 高 峰 时 段 生 成 报表 。 报 表 分 发 使 用 分 布 式 进程 调度 ， 并 需要 “Visual Analytics Scheduled Distribution” 类 型 的 “SAS Java” 批 处 理 服 务 
器 (默认 配置 ) 。 用 户 必须 具有 分 发 报表 (Distribute Reports) 权力 的 角色 和 相关 文件 夹 的 “WriteMemberMetadata” 访 问 权限 才能 分 


能 分 发 报表 。 报 表 分 发 的 日 志 输 出 位 于 “SAS 
Visual Analytics Hyperlink” 服务 日 志 中 。 报 表 作 业 和 发 行 版 存储 在 由 “va.baseSchedulingFolder” 应 用 程序 属性 指定 的 特定 文件 夹 中 ， 如 图 8-46 所 示 。 


< Yisnanal Analytics 了 esigaer T. 了 ”车 性 | 


常规 | 内 者 连接 | 外 部 连接 高 级 | 授权 | 


已 负 定 





System/Applications! SA visual Bnalytics/!ScheduledDistribution | 一 轧  | 
va.dataserver, PublicLibrary visual Bnalytics Public HOFS | 
图 8-46 设置 报表 分 发 的 存储 位 置 
(5) 支持 用 户 定义 的 格式 


Visual Analytics 环 境 中 执行 的 任何 存储 进程 都 支持 用 户 定义 的 格式 。 用 户 定义 格式 可 用 于 Visual Analytics 环 境 的 首选 方法 是 将 格式 目录 命名 为 formats.sas7bcat 并 将 其 放 
在 “<SASCONFIG>/Levn/SASApp/SASEnvironment/SASFormats” 中 。 如 果 使 用 非 标 准 名 称 、 改 变 位 置 或 使 多 个 自 定 义 格式 ， 具 体 使 用 请 参阅 “SAS 智 能 平台 : 数据 管理 指 
(6) 支持 GEO 地 图 (Geographic) 


在 报表 或 探索 中 ， 如 果 使 用 GEO 地 图 ， 则 需要 连接 到 支持 地 理 信息 的 服务 器 和 含有 地 理 位 置信 息 (包括 纬度 和 经 度 值 ) 的 数据 源 。 目 前 支持 由 SAS 或 其 他 机 构 托 管 
的 “OpenstreetMap” 服务 器 和 “ESRI” 服务 器 。 连 接 协议 由 “va.SASsGeomapCommunication-Protocol” 属性 设置 ， 如 图 8-47 所 示 。 默 认 值 为 “http” ， 但 如 果 需 要 ， 可 以 将 值 
更 改 为 “https”。 有 关 详 细 信 息 ， 请 参阅 “SAS Visual Analytics 7.3: 管理 员 指 南 ”。 


配置 “OpenstreetMap” 服务 器 是 一 个 复杂 的 过 程 。 有 关 信息 ， 请 参见 “www.openstreemap.org”。 


“Yisaual Analyrtics T.37 对 性 XX| 


常规 | 设置 高 级 | 授权 | 





YeomapEsriURL 


图 8-47 设置 GEO 地 图 通信 协议 


(7) 内 存 限 制 设置 


在 LASR 分 析 服 务 器 属性 的 高 级 选项 里 可 以 设置 内 存 限制 ， 如 图 8-48 所 示 ， 也 可 以 使 用 PROC LASR 语 句 设置 。 内 存 限制 里 的 选项 会 导致 分 布 式 SAS LASR 分 析 服 务 器 拒绝 超出 限制 
的 任务 。 


数据 加 载 (%) 选项 指定 物理 内 存 使 用 率 的 辣 值 ， 默 认 值 为 “80”。 高 于 该 百分比 的 表 不 能 加 载 到 内 存 。 如 果 SAS LASR 分 析 服 务 器 或 者 该 机 器 上 的 任何 处 理 超过 该 值 ， 则 添加 表 
或 附加 行 的 操作 将 失败 。 如 果 此 字段 为 空 ， 则 使 用 在 服务 器 实例 上 设置 的 值 。 


注意 : 从 HDFS 加 载 的 表 不 计 入 此 限制 。 


高 奴 选 项 加 
版 本 信息 “内存 限 值 | 日 志 记 录 洗 项 | 其 他 选项 | 


克扣 加 副 0 区 
外 亏 过程 【287 | 





图 8-48 LASR 服 务 器 内 存 限 制 选项 


外 部 过 程 (%) 选项 为 SAAS 高 性 能 分 析 过 程 和 其 他 外 部 进程 指定 内 存 利用 率 的 阅 值 。 高 于 该 百分比 的 外 部 过 程 (例如 SAS 高 性 能 分 析 过 程 ) 将 无 法 从 服务 器 检索 数据 。 如 果 此 字段 
为 空 ， 则 使 用 在 服务 器 实例 上 设置 的 值 。 默 认 值 为 空白 (无 值 ) 。 


(8) 自助 式 导 入 文件 限制 


在 Visual Analytics 的 插件 中 可 以 设置 自助 导入 时 导入 文件 大 小 的 限制 ， 如 图 8-49 所 示 。 


“Yisnal Analrtiecs 7T.3” 芷 性 





常规 | 设置 高 级 | 授权 | 


属性 名 忆 庆 定 
va 5elf5erve'Maxbpload5izeInMegabytes 4 | 


wa,SelFSerwice,ImporktGoogleRowLimit 100000 | 岛 | 


va.5elfService,ImportRowssoftiap 





图 8-49 设置 自助 导入 服务 属性 


. va.SelfServe.MaxUploadSizeInMegabytes 设 置 用 户 可 以 导入 的 最 大 文件 大 小 (以 兆 字 节 为 单位 ) 此 属性 影响 在 数据 准备 、 探 索 器 和 报表 设计 器 中 导入 的 本 地 文件 。 默 认 值 为 4096 ， 
要 进一步 限制 导入 活动 ， 请 为 此 属性 设置 较 低 的 值 。 您 不 能 使 用 此 属性 来 规避 基于 浏览 器 的 约束 。 


. Va.SelfService.ImportRowsHardCap 设 置 自助 式 导 入 操作 的 最 大 行 数 如 果 超 过 此 值 ， 则 不 会 导入 任何 数据 。 


* Va.SelfService.ImportRowsSoftCap 设 置 正在 执行 自助 式 导 入 操作 的 用 户 触发 警告 消息 的 行 数 。 


该 消息 表示 导入 操作 可 能 需要 很 长 时 间 。 
注意 : va.SelfService.ImportRowsHardCap 和 va.SelfService.ImportRowsSoftCap 都 未 设置 初始 值 (不 强加 任何 限制 ) 。 执 行 这 两 个 限制 ， 要 求 对 每 个 导入 操作 向 数据 提供 程序 进行 查询 。 
因此 设置 此 属性 的 值 可 能 会 对 性 能 产生 负面 影响 。 
(9) SAs 高 性 能 计算 管理 控制 合 


SAS 高 性 能 计算 管理 控制 台 包 括 其 自己 的 府 入 式 Web 服 务 器 ， 不 与 SAS 元 数据 服务 器 交互 。simcp (同步 复制 ) 和 simsh (同步 shell) 命令 也 随 控制 台 一 起 安装 ， 结 
“/etc/gridhosts” 文 件 确定 环境 中 的 计算 机 ， 实 现在 集群 中 用 户 和 秘 钥 的 分 发 。 以 root 用 户 身 份 运行 ， 启 动 命令 “sashpcmc startl[stop|statusjrestart]”， 日 志文 件 路 
“/opt/sas/hpcmc/webmin/logs”， 该 控制 台 的 URL 是 “http://rootnode:10020”.。 


nD 


[mo 


(10) SAS 环 境 管 理 器 


SAS 环 境 管理 器 提供 对 SAS 服 务 器 、 中 间 层 服务 器 和 应 用 程序 的 监视 和 管理 ， 并 使 用 PostgreSQL 来 存储 环境 变量 。SAS 环 境 管理 器 当前 不 提供 LASR 分 析 服 务 器 的 监视 。 您 可 以 使 
用 SAS 环 境 管理 器 设置 权限 、 添 加 用 户 、 添 加 SAS LASR 分 析 服 务 器 和 添加 LASR 库 。 在 创建 新 的 LASR 服 务 器 上 时， 系统 对 所 需 参 数 的 值 没 有 提示 ，SAS 管 理 员 必须 知道 要 填写 什么 ,而且 
不 会 验证 端口 是 否 ; 冲 突 。SAS 环 境 管理 器 的 URL 是 “http://host:7080” 


2. 用 户 管理 


一 个 组 织 机 构 的 规模 越 大 ， 内 部 结构 越 复杂 ， 用 户 安全 问题 就 越 重要 。 用 户 管理 是 系统 管理 员 的 重要 工作 之 一 。 在 SAS 可 视 化 分 析 的 环境 里 ，SAS 提 供 了 SAS 管 理 控制 台 工 具 帮 助 
系统 管理 员 进 行 用 户 管理 。SAs 管 理 控制 台 可 以 添加 /删除 用 户 、 定 义 组 和 角色 、 将 用 户 分 配 到 适当 的 组 或 者 角色 、 创 建 访问 控制 模版 (ACT) 。 该 控制 台 可 以 使 用 组 来 管理 用 户 安全 
性 ， 也 可 以 定义 角色 向 用 户 组 提供 特定 的 应 用 程序 权力 。 管 理 员 可 以 将 组 与 公司 目录 服务 器 同步 ， 或 者 从 LDAP 导 入 用 户 和 组 。 


(1 用户 


在 创建 用 户 前 ， 我 们 首先 要 了 解 ，SAs 可 视 化 分 析 应 用 程序 的 所 有 非 Guest 用 户 必 须 具 有 元 数据 标识 和 向 元 数据 服务 器 提供 身份 验证 的 注册 账户 。 在 SAs 元 数据 服务 器 中 ， 表 8-16 
里 的 用 户 是 在 SAS Visual Analytics 配 置 期 间 定义 的 。 这 些 用 户 都 只 有 内 部 用 户 账户 。 内 部 用 户 账户 是 仅 为 SAs 所 知 的 账户 ， 在 元 数据 服务 器 内 部 创建 和 认证 。 


注意 : 内 部 账户 的 使 用 存在 一 些 限 制 ， 例 如 ， 仅 有 内 部 账号 的 用 户 不 能 用 于 访问 SAS 工 作 区 服务 器 。 


表 8-16 SAS 内 部 用 户 账 户 


用 六 描述 
SAS 管理 员 


具有 与 元 数据 务 俯 天 联 林 的 账户 : Ke o 
ee A 具有 与 元 数据 服务 信 天 联 权限 的 账户 :无 限制 角色 。 


用 户 描述 

连接 到 访客 访问 URL 的 所 有 用 户 均 被 认证 为 此 服务 账户 。 它 作 
为 所 有 访客 的 单个 代理 身份 ， 必 须 在 SDW 配置 期 间 创 建 此 账户 才 
能 成 功 实施 访客 访问 。 
SAS 环境 管理 天 服务 账户 用 于 SAS 环境 管理 天 代理 和 服务 需 之 间 通 信 的 账户 ， 并 使 环境 
(SAS Environment Manager Service Account) | 管理 天 插件 能 够 访问 SAS 元 数据 服务 天 。 
SAS 受信 任用 户 
(SAS Trusted User) 


SAS 匿名 Web 用 户 
(SAS Anonymous Web User) 





代表 连接 到 元 数据 服务 从 的 其 他 用 户 的 服务 账户 。 


SAS 内 容 的 搜索 接口 用 户 允许 访问 SAS 信息 检索 工作 室 索 引 的 SAS 内 容 。 此 内 部 用 户 需 
(Search Interface to SAS Content User) 要 在 元 数据 中 不 受 限 制 。 


SAS 演示 用 户 


是 一 个 可 选 的 外 部 账户 ， 可 以 在 配置 期 间 创建 。 
(SAS Demo User) 是 一 个 可 选 的 外 部 账户 ， 可 以 在 配置 期 间 创建 


SAS Visual Analytics 分 布 式 部 署 需要 表 8-17 中 列 出 的 外 部 用 户 账 户 ， 建 议 使 用 此 表 上 显示 的 特定 账户 名 称 (sas、hadoop 和 sassrv) ， 但 这 不 是 必需 的 ， 用 户 可 以 选择 不 同 的 名 
称 。 


表 8-17 外 部 用 户 账户 


用 户 描述 
SAS 安 疹 程序 (sas) 用 于 安 疫 SAS， 局 动 SAS LASR 分 析 服 务 硕 监视 希 。 在 每 台 机 各 上 都 需要 。 
SAS Hadoop 用 户 (hadoop ) 在 群集 计算 机 上 启动 Hadoop。 仅 当 Hadoop 是 配置 的 一 部 分 时 ， 才 需要 此 账户 。 





SAS Spawned 服务 需 账 户 〈sassrv ) | 存储 进程 服务 顺和 池 工 作 区 服务 需 的 进程 所 有 者 。 在 SAS 计算 服务 需 上 需要 。 


任何 需要 启动 /停止 LASR 服 务 器 连接 或 向 LAsR 分 析 服 务 器 加 载 /卸载 /重新 加 载 表 的 用 户 都 必须 人 在 集群 中 的 每 台 计 算 机 上 拥有 一 个 账户 ， 并 且 该 账户 必须 在 所 有 计算 机 上 配置 无 密码 
的 SSH。 在 节点 之 间 分 发 密 钥 可 以 使 用 操作 系统 命令 手动 完成 ， 也 可 以 使 用 高 性 能 计算 管理 控制 台 (HPCMC) 。 


创建 用 户 时 注意 下 列 事 项 : 
` 不 要 使 用 root 用户 安装 SAS 程 序 。 
- 为 SAAS 安装 用 户 指定 的 主 组 必须 包含 SAS Spawned Setvet 账 户 。 (此 组 不 必 是 SAS Spawned Setvets 账 户 的 主 组 ) 。 


人 
证 


* 任何 需要 加 载 数据 的 管理 员 账 户 都 应 属于 sas 组 ， 以 使 这 些 账户 能 够 创建 服务 器 签名 文件 。 由 于 在 安装 SAS 高 性 能 基础 架构 时 指定 的 umask 设 置 ， 此 组 可 以 写 入 包含 签名 文件 的 目 


` 使 用 Autoload 的 用 户 必 须 能 够 对 包含 签名 文件 的 目录 具有 写 权 限 。 
` 启用 LASR Monitor 进 程 的 所 有 者 应 在 所 有 节点 上 配置 无 密码 SSH。 
. 在 非 分 布 式 环境 中 不 需要 hadoop 账 户 。 

(2) 用 户 组 


三 个 可 视 化 分 析 组 在 配置 期 间 被 创建 。 创 建 这 些 用 户 组 可 以 简化 角色 成 员 资格 和 访问 控制 管理 。 将 具有 相同 特征 和 功能 的 所 有 用 户 添加 到 一 个 组 ， 然 后 为 该 组 分 配角 色 和 设置 访问 
控制 ， 而 不 是 为 单个 用 户 分 配 。SAS Visual Analytics 用 户 必须 属于 三 个 组 中 的 至 少 一 个 。 管 理 员 可 以 使 用 SAs 管 理 控制 台 或 SAs 环 境 管 理 器 手动 添加 用 户 ， 也 可 以 从 公司 目录 服务 器 同 
步 用 户 。 


Visual Analytics 数 据 管 理 员 组 没有 默认 成 员 


该 组 的 成 员 可 以 保护 和 管理 系统 ， 确 保 系 统 健康 、 安 全 ， 供 分 析 人 员 使 用 。 管 理 用 户 和 监视 服务 器 性 能 ， 主 要 使 用 Visual Analytics 管 理 器 和 SAS 管 理 控制 台 。 您 应 该 将 您 的 环境 管理 
员 添 加 到 此 组 。 该 组 的 成 员 在 Visual Analytics 用 户 组 中 自动 成 为 成 员 。 


. Visual Analytics 用 户 组 是 非 管理 员 的 用 户 组 


该 组 的 成 员 可 以 即时 访问 报表 设计 器 或 探索 器 。 在 自动 化 Visual Analytics 配 置 期 间 ， 将 Visual Analytics 数 据 管理 员 和 Visual Analytics Data Buildet 管 理 员 添 加 到 此 组 。 同 时 ，Visual 
Analytics 用 户 组 也 添加 了 分 析 和 报告 查看 角色 。 您 应 该 添加 要 访问 报表 设计 器 或 探索 器 的 用 户 到 此 组 。 


. Visual Data Buildet 管 理 员 组 没有 默认 成 员 


该 组 的 成 员 权 限 使 数据 可 供 分 析 人 员 使 用 、 准 备 和 加 载 ， 主 要 使 用 数据 准备 应 用 程序 。 应 用 中 应 该 将 Data Buildet 管 理 员 添 加 到 此 组 。 该 组 的 成 员 在 Visual Analytics 用 户 组 中 自动 成 


因此 在 添加 用 户 前 ， 要 考虑 这 个 用 户 的 权限 来 确定 它 所 属 的 组 : 
只 查看 其 他 人 创建 的 内 容 ? 

` 为 其 他 人 创建 报告 或 探索 ? 

` 为 其 他 人 创建 和 加 载 数据 ? 

` 需要 启动 或 停止 LASR 服 务 器 ? 

(3) 角色 


SAS Visual Analytics 使 用 预定 义 的 角色 进行 控制 ， 哪 些 用 户 可 以 访问 每 个 应 用 程序 ， 哪 些 应 用 权力 可 用 于 每 个 用 户 或 用 户 组 。 每 个 角色 都 有 一 个 关联 的 权力 列表 ， 以 及 一 个 有 权 
访问 该 角色 所 包含 权力 的 相关 成 员 列 表 。 


管理 员 可 以 通过 下 面 两 种 方法 更 改 授予 用 户 的 功能 : 
更 改 成 员 所 分 配 的 角色 。 
` 创建 新 的 自 定义 角色 并 将 选 定 的 权力 分 配给 该 自 定义 角色 。 


创建 自 定 义 角 色 是 一 种 很 好 的 做 法 ， 而 不 是 更 改 分 配给 角色 的 默认 功能 。 因 为 更 改 角色 的 默认 分 配 权力 后 ， 就 没有 办 法 恢复 成 默认 值 。 在 SAs 管 理 控制 台中 创建 自 定义 角色 ， 可 以 
隔离 一 组 用 户 的 特定 权力 ， 或 通过 创建 新 角色 来 扩展 现 有 角色 。 管 理 员 可 以 选择 将 新 角色 作为 一 个 或 多 个 贡献 角色 。 在 示例 中 ， 基 于 贡献 的 Visual Analytics: 管理 角色 创建 一 个 新 角 
色 ， 如 图 8-50 所 示 。 新 角色 的 权力 选项 卡 具有 默认 的 贡献 角色 的 所 有 功能 。 在 现 有 角色 上 建立 新 角色 时 ， 管 理 员 可 以 向 该 角色 添加 新 权力 ， 但 不 能 带 走 贡献 角色 的 任何 现 有 权力 。 受 
保护 的 权力 由 灰色 背景 和 点 表示 。 有 关 创 建 和 修改 角色 的 详细 说 明 ， 请 参阅 “SAS 9.4 管 理 控制 台 : 用 户 和 权限 指南 ”。 
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图 8-50 创建 新 角色 


SAS 元 数据 服务 器 中 使 用 访问 控制 模板 (ACT) 管理 对 资源 的 访问 ， 如 图 8-51 所 示 ， 只 需 向 ACT 添加 用 户 组 。 将 用 户 添 加 到 相关 组 会 自动 授予 对 必要 资源 的 访问 权限 ， 从 组 中 删除 
用 户 还 会 删除 访问 权限 ， 减 少 管理 员 的 工作 量 。 
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图 8-51 创建 访问 控制 模版 
3. 系 统 日 志 


日 志文 件 在 系统 出 现 问 题 时 ， 能 够 帮助 系统 管理 员 快 速 定 位 问题 。 系 统 部 署 成 功 后 ， 一 些 服 务 器 的 日 志 记 录 功 能 默认 是 禁用 ， 需 要 管理 员 手 动 司 用 。 


SAs 可 视 化 分 析 环 境 使 用 标准 日 志 记 录 工 具 为 SAs 服 务 器 执行 日 志 记 录 。 每 个 服务 器 都 有 一 个 日 志 配 置 文件 ， 用 于 控制 该 服务 器 日 志 的 目标 、 内 容 和 格式 。 日 志 配 置 文件 是 一 个 


XML 文件 ， 用 于 指定 和 配置 记录 器 (Logger) 和 追加 器 (Appender) 。SAs 部 署 向 导 会 自动 为 每 个 服务 器 创建 一 个 初始 日 志 记录 配置 文件 ， 并 且 会 自动 为 大 多 数 SAs 服 务 器 启用 日 志 
记录 。 


启用 服务 器 日 志 记 录 需 要 执行 以 下 步骤 : 


1) 为 服务 器 创建 日 志 配 置 文件 ， 此 为 必须 的 步骤 。 每 个 服务 器 的 配置 文件 名 为 logconfig.xml， 位 于 服务 器 启动 脚本 所 在 的 目录 中 。 例 如 ， 元 数据 服务 器 的 日 志 记录 配置 文件 位 于 
以 下 路 径 中 : “<SASCONFIG>/Lev1/SASMeta/MetadataServer”。 管 理 员 可 以 根据 需要 修改 这 些 文件 以 调整 日 志 记 录 配 置 ， 还 可 以 使 用 SAS 管 理 控制 台 的 服务 器 管理 功能 动态 调 
整 日 志 记 录 级 别 。 


2) 系统 选项 “LOGCONFIGLOC” 必须 在 服务 器 的 “sasv9.cfg” 文 件 中 指定 。 此 系统 选项 指定 日 志 配 置 文件 的 路 径 和 文件 名 ， 例 如 : -logconfigloc“logconfig.xml”。 如 果 要 
为 日 志 配 置 指定 不 同 的 路 径 或 文件 各， 应 修改 服务 器 “sasv9 usermods.cfg” 文 件 中 的 “LOGCONFIGLOC” 选 项 。 


为 了 协助 故障 排除 ， 某 些 服务 器 (包括 元 数据 服务 器 、OLAP 服 务 器 、 池 工作 区 服务 器 、 存 储 进程 服务 器 和 工作 区 服务 器 ) 具有 详细 日 志 记 录 配 置 文件 。 这 种 配置 文件 ， 命 
为 “logconfig.trace.xml”， 提 供 高 级 日 志 记 录 消息 (例如 DEBUG 和 TRACE 消 息 ) ， 可 由 SAS 技 术 支 持 人 员 使 用 以 帮助 解决 服务 器 问题 。 消 息 将 写 入 服务 器 的 滚动 日 志文 件 。 


注意 : 工作 区 服务 器 最 初 虽 未 配置 为 生成 日 志文 件 。 但是， 详细 日 志 记 录 配 置 文件 会 为 此 服务 器 创建 一 个 滚动 日 志文 件 以 供 故 障 排除 之 用 。 
具体 启用 详细 日 志 记 录 配 置 文件 的 步 又， 请 参照 “SAs 9.4 智 能 平台 : 系统 管理 指南 ”。 


SAS Visual Analytics Web 应 用 程序 使 用 log4j 执 行 日 志 记录 。 随 着 每 个 Web 应 用 程序 开始 运行 ， 应 用 程序 的 log4j 配 置 文件 
从 “<SASCONFIG>/Levn/Web/Common/LogConfig” 目 录 中 读 取 。 默 认 情况 下 ， 不 启用 Visual Analytics Web 应 用 程序 的 日 志 记录 。SAS Web 应 用 程序 服务 器 必须 在 修改 后 重新 
启动 。 有 关 日 志 记录 级 别 ， 使 用 log4j 文 件 以 及 如 何 使 用 各 个 日 志 记录 环境 的 信息 ， 请 参阅 “SAS 智 能 平台 : 中 间 层 管理 指南 。” 


LASR 分 析 服 务 器 日 志 记 录 是 一 个 可 选 功能 ， 可 以 使 用 “PROC LASR” 或 使 用 “LASR Analytic Server” 元 数据 定义 启用 。 日 志文 件 名 为 服务 器 签名 文件 名 +.log 后 缀 ， 例 如 : 
LASR.924998214.28622.saslasr.log。 当 服务 器 接收 并 完成 请 求 时 ， 写 入 日 志 记 录 。 该 日 志 只 记录 与 服务 器 有 联系 的 活动 。LASR 分 析 服 务 器 在 SAS 管 理 控 制 台 (LASR 分 析 服 务 器 属性 / 
选项 /高 级 选项 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17709/OEBPS/Text/.../ 日 志 记 录 选 项 ) 中 记录 参数 管理 ， 如 
图 8-52 所 示 。 
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图 8-52 LASR 服 务 器 的 上 日志 记录 选项 


Visual Analytics 管 理 器 可 以 从 LASR 服 务 器 或 表 的 上 一 操作 日 志 中 快速 访问 日 志 ， 如 图 8-53 所 示 。 右 键 单 击 服务 器 或 表 ， 然 后 选择 “上 一 操作 日 志 ” ， 就 能 直接 打开 最 新 日 志 
件 ， 有 助 于 立即 解决 问题 。 
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图 8-53 ” Visual Analytics 管 理 器 中 查看 日 志 
4 备份/ 还原 


为 了 确保 SAS 可 视 化 分 析 环 境 的 完整 性 ， 应 该 建立 一 个 正式 的 定期 备份 计划 。SAS 提 供 了 三 种 备份 工具 : 元 数据 服务 器 备份 设备 ， 导 出 SAS 软 件 包 (用 于 特定 的 SAAS 文 件 夹 ) ， 部 
署 备份 和 恢复 工具 。 避 免 在 同一 时 间 运 行 元 数据 服务 器 备份 和 部 署 备 份 。 


注意 : 备份 要 求 是 在 同一 时 间 点 备份 所 有 以 下 内 容 ， 以 便 在 需要 恢复 时 相关 信息 是 同步 的 。 


管理 员 可 以 使 用 SAS 管 理 控制 台 更 改元 数据 服务 器 备份 计划 和 配置 选项 ， 在 SAS 管 理 控制 台 可 以 查看 详细 的 备份 历史 记录 。 当 备份 元 数据 服务 器 时 ， 重 要 的 是 还 要 备份 与 元 数据 对 
象 相关 联 的 物理 数据 。 元 数据 服务 器 备份 也 可 以 从 操作 系统 命令 行 ， 从 SAS 或 通过 第 三 方 软件 启动 。 默 认 情 况 下 ， 元 数据 服务 器 备份 计划 在 除 星 期 日 之 外 的 每 天 服务 器 本 地 时 间 1:00 运 
行 备份 工具 。 


除了 执行 常规 完全 备份 之 外 ， 在 某 些 情况 下 ， 可 能 需要 备份 元 数据 文件 夹 (SAS 文 件 夹 ) 树 中 的 特定 对 象 或 文件 夹 。 在 这 些 情况 下 ， 管 理 员 可 以 使 用 升级 (Promotion) 工具 , 其 
中 包括 导出 SAS 软 件 包 向 导 ， 导 入 SAS 软 件 包 向 导 和 批量 导出 和 导入 工具 。 


SAS 部 署 备份 和 恢复 工具 是 安装 在 中 间 层 作为 SAS Web 基 础 架构 平台 的 一 部 分 ， 提 供 了 在 多 个 层 和 机 器 之 间 备份 和 恢复 SAs 内 容 的 集成 方法 。 此 工具 与 每 个 中 间 层 和 服务 器 层 主机 
上 的 SAS 部 署 代理 连接 ， 因 此 需要 启动 SAS 部 署 管理 器 和 和 SAS 部署 代理 ，SAS 部 署 代理 需要 部 署 在 每 个 SAS 高 性 能 分 析 环 境 的 节点 上 。SAS 部 署 备份 和 恢复 工具 仪 限 备 
份 “<SASCONFIG>/Levn” 文 件 夹 的 内 容 。 默 认 将 在 每 个 星期 日 服务 器 本 地 时 | 间 1:00 自 动 运 行 。 运 行 时 间 可 以 修改 ， 备 份 文件 保留 30 天 的 时 间 。 


SAs 部 署 备份 和 恢复 工具 就 是 一 个 非常 好 的 工具 ， 但 具有 以 下 限制 : 
. 未 安装 SAS 部 署 代理 的 主机 计算 机 将 自动 从 备份 中 排除 。 
. 该 工具 仅 备 份 SAS 内 容 和 配置 信息 ， 它 不 备份 SAS 软 件 。 


:部署 备份 和 恢复 工具 不 能 备份 使 用 第 三 方 数 据 库 提供 程序 的 数据 库 。 例 如 ， 如 果 对 “SharedSetrvices ”数据 库 使 用 第 三 方 供 应 商 数 据 库 〈 而 不 是 “SAS Web Infrastructure 
Platform ”数据 服务 器 ) ， 则 部 署 备份 和 恢复 工具 不 能 备份 它 。 


. 该 工具 不 备份 SAS 配 置 目 录 的 全 部 内 容 。 它 仅 备 份 SAS 服 务 器 层 上 部 分 服务 器 的 Data 目 录 、SASEnvitonment 目 录 和 配置 目录 ， 上 有 具体 备份 内 容 的 详细 信息 ， 请 参阅 “SAS 智 能 平台 : 


系统 管理 指南 。 


默认 情况 下 ， 备 份 文 件 存储 在 备份 源 所 在 的 同一 台 机 器 上 。 所 有 备份 源 都 将 备份 到 其 各 自主 机 上 的 以 下 路 径 “<SASCONFIG>/Lev1/Backup/Vault”。 此 目录 在 首次 执行 备份 时 
在 每 台 计 算 机 上 创建 。 管 理 员 还 可 以 指定 一 个 网 络 可 访问 的 中 央 保 管 库 来 存储 备份 。 如 果 指 定 了 中 央 保 管 库 ， 每 次 备份 操作 后 ， 备 份 将 自动 从 各 种 主机 复制 到 中 央 保管 库 。 强 烈 建议 使 
用 中 央 保 管 库 ， 以 避免 在 主机 故障 的 情况 下 丢失 备份 文件 。 


在 SAS Visual Analytics 环 境 中 ， 管 理 员 必须 备份 AutoLoad 文 件 夹 结构 (脚本 和 数据 ) 和 所 有 节点 的 SAS 部 署 代理 文件 夹 。 


对 SAS 可 视 化 分 析 节 点 ( 根 节点 和 工作 节点 ) 或 用 于 非 分 布 式 的 SAs 服 务 器 ， 部 署 后 做 备份 或 映像 系统 可 以 轻松 恢复 系统 的 元 数据 、 配 置 文件 、 数 据 和 程序 。 对 于 SAs LASR 分 析 
服务 器 ， 内 人 存 中 的 数据 是 没有 备份 的 ， 只 能 重新 加 载 。 LASR 分 析 服 务 器 定义 是 元 数据 的 一 部 分 ， 在 备份 系统 时 已 经 包含 。 


在 Hadoop 的 Co-located 数 据 提供 模式 的 Name 节 点 里 ， 没 有 数据 ， 只 包含 有 关 HDFS 的 配置 信息 和 元 数据 。 当 数据 加 载 到 HDFS 时 ，Name 节 点 里 的 内 容 会 发 生 更 改 。 定 期 备 
份 /hadoop/hadoop-name， 就 可 以 直接 恢复 ， 而 无 须 重 新 加 载 数据 到 HDFS。 部 署 后 的 备份 或 映像 系统 ， 结 合 定 期 备份 的 元 数据 ， 可 以 恢复 系统 。 在 Data 节 点 里 ， 包 含 数据 和 配 
置 。 部 署 后 的 备份 或 映像 系统 可 以 快速 恢复 系统 。 


正常 系统 内 容 (用 户 、 配 置 文件 、 应 用 程序 、 程 序 和 数据 等 ) 可 以 在 备份 策略 中 涵盖 ， 也 可 以 使 用 操作 系统 命令 或 第 三 方 工具 备份 物理 内 容 。 在 使 用 操作 系统 命令 或 第 三 方 工具 
时 ， 需 要 停止 元 数据 服务 器 才能 进行 备份 。 


推荐 的 备份 /恢复 策略 : 
. 使 用 SAS 部 署 备份 和 恢复 工具 备份 “<SASCONFIG>/Levn” 文 件 夹 中 的 任何 内 容 。 
. 使 用 系统 备份 工具 捕获 “<SASCONFIG>/Levn” 文 件 夹 外 的 任何 内 容 。 
对 Co-located 数 据 提供 模式 的 数据 使 用 常规 DBMS 备 份 工具 。 
恢复 元 数据 时 注意 : 
SAS 提 供 的 恢复 工具 只 能 在 运行 的 Metadata Server 上 恢复 其 他 备份 源 。 如 果 您 的 元 数据 服务 器 没有 响应 ， 请 使 用 操作 系统 命令 手动 恢复 Metadata Setvet。 
5. 环 境 维护 


SAS Visual Analytics 环 境 会 生成 大 量 .log 文 件 。 默 认 情 况 下 ， 每 个 自动 加 载 库 每 15 分 钟 生成 一 次 日 志 ，Web App Server 每 天 翻转 一 个 新 的 日 志文 件 。 一 些 日 志文 件 是 非常 大 的 ， 


\ 一 /一 


应 至 少 每 两 周 清除 较 旧 的 日 志文 件 。 日 常 的 系统 清理 工作 可 以 使 用 CLEANWORK 实 用 程序 ， 删 除 SAs WORK 空 间 。 在 Workspace 会 话 中 运行 单机 LASR 分 析 服 务 器 时 ， 请 小 心 这 个 操 
作 。 建 议 至 少 每 周 使 用 REORG 选 项 回收 元 数据 空间 。 该 程序 在 应 用 维护 或 修补 程序 后 运行 ， 可 删除 剩余 的 临时 文件 。 


SAS 每 6 个 月 发 布 一 次 新 的 Visual Analytics 软 件 包 。 运 行 SAS Deployment Manager 和 SAS Setup Utility 可 以 更 新 9AS Visual Analytics 许 可 证 。 
修补 程序 时 要 注意 : 

` 在 安装 和 配置 之 前 ， 已 经 将 修补 程序 下 载 到 软件 仓库 

确定 哪些 修复 程序 是 配置 环境 可 用 的 


` 识别 已 安装 的 修补 程序 


` 目前 没有 回 滚 修补 程序 的 方法 


8.2.2 ”操作 计算 服务 器 


SAs 可 视 化 分 析 的 服务 器 由 两 部 分 组 成 ， 如 图 8-54 所 示 ， 一 部 分 是 SAs 智 能 平台 的 服务 器 ， 另 一 部 分 是 SAs 高 性 能 分 析 基 础 架构 里 的 服务 器 。 下 面 分 别 介 绍 每 个 服务 器 的 使 用 。 


SAS 智 能 平台 支持 SAS 解 决 方案 的 一 系列 服务 器 和 服务 。 以 下 是 SAS Visual Analytics 使 用 的 平台 服务 器 的 示例 : 元 数据 服务 器 提供 元 数据 管理 ;SAS 内 容 服务 器 在 中 间 层 中 存储 数 
字 内 容 ; 报表 存储 在 元 数据 和 内 容 服务 器 中 ;探索 仅 人 存储 在 元 数据 中 。SAs 信 息 检索 工作 室 和 SAs 内 容 搜索 接口 索引 SAs 内 容 ， 并 支持 主页 上 的 搜索 功能 。 工 作 区 服务 器 支持 注册 表 、 
暂 存 数据 、 导 入 数据 、 加 载 数据 以 及 局 动 或 停止 SAs LASR 分 析 服 务 器 等 任务 。 


中 间 层 过 程 服务 各 过 程 


Web 应 用 程序 SAS 工作 区 服务 需 
Web 浏览 器 - 探索 六 - 数据 准备 SAS 存储 进程 服务 天 
-设计 髓 - 图 形 生成 天 SAS 共享 池 工 作 区 服务 需 
- Web 查看 天 - 管理 天 


村 


市 间 层 服务 SAS LASR 分 析 服 务 器 


> 
| 


多 动 查看 器 SAS LASR 授权 服务 


SAS 可 视 化 分 析 传输 服务 SAS 售 县 | | sAsLASR 
SAS Web 基础 架构 平台 信人 服务 监视 从 
服务 器 | | 
SAS 管理 控制 台 SAS 内 容 的 搜索 接口 
SAS 内 容 服 务 天 


Flex 主题 SAS 元 数据 服务 需 





图 8-54 SAS Visual Analytics 客 户 端 / 中 间 层 /服务 器 
. SAS 元 数据 服务 器 (SAS Metadata Server) 


SAS 元 数据 服务 器 是 SAS 智 能 平台 中 最 关键 的 软件 组 件 。 所 有 客户 端 应 用 程序 和 平台 中 的 其 他 SAS 服 务 器 都 依赖 bAS 元 数据 服务 器 ， 并 且 在 没有 启动 它 时 无 法 运行 。SAS 元 数据 服务 
器 是 一 个 多 用 户 服务 器 ， 用 于 将 元 数据 从 一 个 或 多 个 SAS 元 数据 存储 库 提供 给 环境 中 的 所 有 SAS 智 能 平台 客户 端 应 用 程序 。SAS 元 数据 服务 器 实现 集中 控制 ， 以 便 所 有 用 户 访问 一 致 和 准 
确 的 数据 。 


. SAS 存 储 进 程 服务 器 (SAS Stored Process Servet) 


SAS 存 储 进程 服务 器 通过 提交 存储 的 进程 与 SAS 进 行 交互 ， 这 些 存储 的 进程 是 SAS 客 户 端 应 用 程序 存储 和 提交 的 SAS 程 序 。 用 户 可 以 使 用 存储 的 进程 来 执行 复杂 的 任务 ， 例 如 ， 分 析 
数据 和 创建 报告 ， 然 后 将 结果 返回 给 客户 端 或 将 结果 发 布 到 各 种 沟通 渠道 或 存储 库 。 


* SAS 工 作 区 服务 器 (SAS Workspace Setvet) 


SAS 工 作 区 服务 器 通过 为 每 个 客户 端 连接 创建 服务 器 进程 与 SAS 进 行 交 互 。 工 作 区 服务 器 进程 由 发 出 服务 器 请 求 的 客户 端 用 户 所 拥有 。 每 个 工作 区 服务 器 进程 使 客户 端 程序 能 够 访 
问 SAS 库 ,使 用 SAS 语 言 执 行 任务 ， 以 及 检索 结果 。 


* SAS 共 享 池 工 作 区 服务 器 (SAS Pooled Workspace Server) 


SAS 共 享 池 工 作 区 服务 器 是 使 用 服务 器 端 轮 询 的 工作 区 服务 器 。 这 种 配置 为 客户 端 维持 可 以 重用 的 一 定数 量 的 工作 区 服务 器 进程 ， 这 样 每 次 客户 端 在 连接 该 服务 器 时 ， 就 不 必 重 新 
创建 新 的 工作 区 服务 器 进程 ， 避 免 了 相关 的 资源 消耗 。 与 标准 工作 区 服务 器 一 样 ， 每 个 池 化 工作 区 服务 器 使 客户 端 程序 能 够 访问 SAS 库 ， 使 用 SAS 语 言 执 行 任务 ， 以 及 检索 结果 


. SAS 内 容 服 务 器 (SAS Content Server) 


存储 由 SAS 客 户 端 应 用 程序 创建 和 使 用 的 数字 内 容 (例如 文档 ， 报 告 和 图 像 ) 。 为 了 与 SAS 内 容 服务 器 交互 ， 客 户 端 使 用 基于 WebDAV (Web Disttibuted Authoring and Versioning) 
的 协议 进行 访问 、 版 本 控制 、 协 作 、 安 全 和 搜索 等 操作 。 管 理 用 户 可 以 使 用 基于 浏览 器 的 SAS Web 管 理 控制 台 来 创建 、 删 除 和 管理 SAS 内 容 服务 器 上 的 文件 夹 权 限 。 


. SAS 信 息 检 索 工 作 室 服务 器 (SAS Information Retrieval Studio Setvet) 


SAS 信 息 检 索 工 作 室 服务 器 索引 保存 在 元 数据 中 的 报告 和 探索 ， 创 建 保 存在 元 数据 中 的 报表 和 探索 的 索引 。 当 SAS Visual Analytics 用 户 执 行 搜索 时 ，SAS 内 容 应 用 程序 的 搜索 接口 将 
检查 由 SAS 信 息 检 索 工 作 室 服务 器 保存 的 搜索 条 目的 索引 ， 并 返回 搜索 结果 ， 从 而 无 需 在 元 数据 服务 器 中 搜索 ， 加 快 用 户 的 搜索 结果 。 默 认 情 况 下 ， 搜 索索 引 每 小 时 更 新 一 次 。 如 果 
SAS 信 息 检 索 工 作 室 服务 器 关闭 ， 则 无 法 生成 索引 或 搜索 任何 内 容 。 如 果 SAS Web App Server 重 新 启动 ， 则 SAS 信 息 检 索 工作 室 服务 器 应 重新 启动 。 默 认 由 SAS 安 装 用 户 启动 。 


. SAS Web 基础 架构 平台 (SAS Web Infrastructure Platform) 


SAS Web 基 础 架构 平台 数据 服务 器 包含 在 您 的 部 署 中 ， 以 便 由 SAS 中 间 层 软件 和 某 些 SAS 解 决 方案 软件 用 作 事 务 存储 。 该 服务 器 基于 PostgreSQL。 服 务 器 是 中 间 层 数据 (如 提醒 、 注 
释 和 工作 流 ) 以 及 SAS 内 容 服 务 器 数据 的 默认 位 置 。SharedServices 数 据 库 由 SAS Web 应 用 程序 和 中 间 层 软件 使 用 。 例 如 ， 通 过 各 种 Web 应 用 程序 添加 的 注释 存储 在 此 数据 库 中 。 与 SAS 
Content Setvet 一 起 存储 的 数字 内 容 也 存储 在 此 数据 库 中 。ttanspottsvcs_dg 由 SAS Visual Analytics 传 输 服 务 使 用 。 数 据 库 存储 移动 登录 历史 记录 信息 ， 以 及 通过 SAS Visual Analytics 管 理 员 维 
护 设 备 的 黑 名 单 和 白 名 单数 据 。 它 还 用 于 支持 传输 服务 应 用 程序 内 的 缓存 。 


* SAS 可 视 化 分 析 超 链接 服务 (SAS Visual Analytics Hypetlink setvice) 
SAS 可 视 化 分 析 超 链接 服务 位 于 中 间 层 ， 支 持 报告 分 发 、 链 接 和 提醒 等 功能 。 
. SAS 可 视 化 分 析 传 输 服 务 (SAS Visual Analytics Transport setvice ) 


SAS 可 视 化 分 析 传 输 服务 支持 SAS Mobile BI 的 通信 ， 提 供与 AS Office Analytics 的 集成 ， 并 支持 打印 报告 。 


. SAS LASR 授 权 服 务 

SAS LASR 授 权 服 务实 施 对 内 存 中 LASR 表 的 数据 访问 权限 。 关 于 SAS LASR 授 权 服 务 的 详细 信息 请 参考 8.2.4 节 。 
. SAS LASR 分 析 服 务 器 

关于 SAS LASR 分 析 服 务 器 的 详细 信息 ， 请 参考 8.1.1 节 。 


以 上 对 SAS Visual Analytics 环 境 中 的 服务 器 作 了 简单 的 介绍 ， 如 果 想 要 了 解 详细 信息 ， 请 参阅 3As 官 方 文档 获取 更 多 信息 


8.2.3 ”环境 监控 


在 SAS Visual Analytics 环 境 中 ， 通 过 观察 、 监 督 或 控制 活动 ， 我 们 可 以 知道 LASR 服 务 器 当前 是 启动 还 是 停止 ， 当 前 在 内 存 中 加 载 了 什么 表 ， 当 前 使 用 了 多 少 内 存 ， 当 前 用 于 运行 
此 过 程 的 CPU 的 百分比 是 多 少 。 局 动 系统 审计 功能 ， 还 能 从 SAs Visual Analytics 环 境 中 读 取 存 储 的 历史 数据 来 回答 一 些 问题 ， 例 如 ， 谁 做 了 什么 ， 什 么 时 候 ， 使 用 了 哪些 数据 ， 使 用 
了 哪些 应 用 程序 ， 资 源 利 用 有 趋势 吗 ” 系 统管 理 员 通过 这 些 数据 ， 能 够 了 解 当 前 环境 的 资源 使 用 ， 及 时 进行 调控 ， 保 证 系统 的 正常 运行 。 系 统管 理 员 通常 使 用 下 面 三 个 工具 来 监控 整个 
环境 : Visual Analytics 管 理 器 、SAS Environment Manager 和 LASR 监 视 器 。 


1.Visual Analytics 管 理 器 (Visual Analytics Administrator， 缩 写 : VAA) 


在 Visual Analytics 管 理 器 的 LASR 服 务 器 标签 页 ， 用 户 可 以 看 到 LASR 服 务 器 状态 、 内 存 监 控 、 由 谁 和 什么 时 候 开 始 及 上 一 次 操作 的 日 志 。LASR 服 务 器 有 三 种 状态 : 运行 、 停 止 和 
超 容 量 ， 如 图 8-55 所 示 。 超 过 容量 是 当 其 表 的 内 存 值 等 于 或 超过 其 表 限 制 值 时 。 
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图 8-55 LASR 服 务 器 状态 
在 VAA 中 有 三 个 地 方 显示 了 对 内 存 的 监控 ， 如 图 8-56 所 示 。 
.内存 标尺 是 在 SAS Visual Analytics 集 群 中 使 用 的 百分比 ( 仅 限 分布 式 模式 ) 。 
` 虚拟 内 存 是 LASR 服 务 器 进程 在 SAS Visual Analytics 集 群 (聚合 ) 上 使 用 的 内 存 的 百分比 


` 表 内 存 是 当前 加 载 表 使 用 的 内 存量 ， 不 包括 临时 表 ， 并 忽略 任何 内 存 映 射 。 
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图 8-56 Visual Analytics 管 理 器 中 内 存 监 


对 于 分 布 式 服务 器 ， 内 存 标尺 在 多 个 窗口 中 可 见 ， 如 图 8-57 所 示 ， 管 理 员 可 以 使 用 标尺 确保 不 会 使 服务 器 或 硬件 过 载 。 提 示 信 息 右 端的 数字 表示 集群 物理 内 存 的 总 量 ， 提 示 信 息 
左 端 的 数字 表示 已 经 使 用 的 LASR 内 存 。 信 息 提示 条 中 的 百分比 表示 已 使 用 的 集群 物理 内 存 占 总 内 存 百 分 比 。 


已 使 用 的 物理 内 存 % 
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图 8-57 内 存 标尺 


每 个 LASR 服 务 器 实例 的 度量 指示 该 服务 器 实例 (进程 ) 当前 正在 使 用 多 少 内 存 ， 如 图 8-58 所 示 。 各 个 仪表 可 以 帮助 管理 员 分 析 各 个 实例 的 容量 ， 其 中 所 有 表 可 以 同时 被 访问 。 
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图 8-58 监控 多 个 LASR 服 务 器 的 内 存 


右 击 LASR 分 析 服 务 器 列表 中 的 某 一 个 服务 器 ， 弹 出 菜单 ， 可 以 访问 查看 上 次 操作 日 志 ， 如 图 8-59 所 示 。 并 非 所 有 操作 都 会 生成 新 的 日 志 ， 具 体 要 通过 日 志 的 任务 摘要 和 时 间 戳 来 
确定 哪些 操作 生成 显示 的 日 志 。 














| LASR 服务 器 * 上 一 操作 日 志 ee: 
区 区 园 | 上 ] 选项 卡 初始 伟 时 著 职 状 志 | 职 浓 该 日 志和 针对 所 选 服务 强 上 的 最 新 如 互 操作 。 

= 注意 : 并 非 所 有 操作 都 会 生成 新 日 志 。 使 用 日 志 的 任务 汇总 和 9 十 并 可 确 
[| 服务 器 状 志 ”虚拟 和 内存 证 生成 了 也 显示 日 志 的 闭 项 控 作 。 


"和 
SUCLGESS (SASJob Precode) 

SUCCGESS rrS8et Grid Node CGount) 

SUCGGESS (Start Server) 

















图 8-59 ”查看 上 一 次 操作 日 志 


在 资源 监控 标签 页 ， 实 时 监控 集群 资源 。 
息 。 言 息 是 户 


顶部 的 图 表 显示 各 个 硬件 资源 的 历史 使 用 率 ， 如 图 8-60 所 示 ， 在 这 里 可 以 查看 最 近 一 段 时 间 的 资源 使 用 情况 (%) ， 将 鼠标 悬 停 在 图 形 上 
的 点 可 以 获取 详细 信 


所 有 机 器 的 平均 值 ，CPU 和 内 存 利用 率 以 百分比 绘制 。 因 为 不 能 存储 历史 数据 ， 所 以 每 次 重新 打开 资源 监视 器 客户 端 时 将 重新 初始 化 。 


这 些 信息 


使 用 宰 历 中 加 
































图 8-60 ”资源 使 用 历史 视图 


如 图 8-61 所 示 为 实时 显示 的 各 个 节点 的 资源 使 用 情况 。 每 列表 示 集 群 中 的 一 个 节点 ， 其 中 第 一 列 是 头 节点 。 从 上 到 下 依次 是 CPU、 内 存 、 网 络 输出 和 网 络 输入 。 当 站 标 悬 停 在 单 
元 格 上 时 可 以 获取 详细 信息 。 
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图 8-61 资源 使 用 热 图 


进程 监控 标签 页 以 两 个 图 形 显 示 内 存 和 CPU 的 资源 利用 率 。 在 气泡 图 里 ， 如 图 8-62 所 示 ， 每 个 LASR 实 例 由 气泡 图 中 的 气泡 表示 ， 气 泡 的 大 小 表示 用 于 该 实例 的 进程 数 ， 气 泡 的 位 
置 表示 集群 中 机 器 上 的 LAsR 实 例 的 资源 利用 率 。 将 鼠标 放 在 一 个 气泡 上 ， 会 获得 关于 实例 的 详细 信息 。 


CPU 使 用 率 - 内 存 使 用 率 加 








条 形 图 显示 每 个 实例 的 CPU 和 内 存 利用 率 ， 如 图 8-63 所 示 ， 每 个 LASR 实 例 由 一 个 条 形 表 示 。 每 个 条 表示 该 实例 的 CPU 和 内 存 利用 率 ， 橙 色 部 分 表示 CPU， 紫 色 部 分 表示 内 存 。 单 
击 某 一 个 特定 的 栏 ， 会 获得 集群 中 服务 器 对 该 实例 的 CPU 利用 率 的 详细 信息 和 该 实例 中 加 载 的 表 。 


实例 的 CPU 和 内 存 使 用 率 


CPUI(%) 和 内 存 (%) 


5 
自 = 


la dm Ag 22533 sradm' Hsr 22148 
实例 ID 





图 8-63 ”进程 监控 条 形 图 ( 附 彩 图 ) 


HDFS 内 容 浏 览 器 适用 于 仅 使 用 Co-located 数 据 提供 程序 的 Hadoop 架 构 。HDFS 内 容 浏览 器 用 于 浏览 HDFS 文 件 夹 ， 如 图 8-64 所 示 ， 从 HDFS 中 删除 表 ， 查 看 存储 在 HDFS 中 的 信 
息 ， 如 : HDFS 属 性 、 基 本 文件 信息 和 表 信 息 ( 列 、 行 计数 、 块 详细 信息 、 块 分 布 及 按 节点 的 块 分 布 ) 。 
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图 8-64 HDFS 文 件 管理 


移动 设备 标签 页 可 以 监视 移动 用 户 对 环境 的 访问 (登录 历史 ) 以 及 与 黑 名 单 或 白 名 单 有 关 的 操作 ， 如 图 8-65 所 示 。 管 理 员 ID 是 设备 上 执行 操作 的 管理 员 的 用 户 名 ， 设 备 1D 是 设备 
名 称 ， 活 动 是 在 移动 设备 上 执行 的 操作 类 型 。 时 间 戳 是 显示 在 移动 设备 上 执行 操作 的 日 期 和 时 间 。 


移动 设备 x 移动 设备 * | 
《5 | 强制 使 用 : | 黑 名 单 | * | 加 


6 | 强制 使 用 : | 震 名 音 
| 登录 奈 b | 黑 名 单 | 白 名 单 | 管理 历史 登录 历史 | 黑 名 单 | 白 名 单 | 管理 历史 | 
















































































管理 ID 设备 耳 择 作 时 Ia 


用 ... 设备 了 设 苗 荣 型 


图 8-65 ”监视 移动 客户 端 


2.SAS 环 境 管理 器 (SAS Environment Manager， 缩 写 : EV) 


Visual Analytics 管 理 器 仅 监 控 与 LASR 相 关 的 进程 ， 但 我 们 还 需要 监控 所 有 其 他 组 件 ， 比 如 元 数据 服务 器 、 中 间 层 服务 器 和 CPU 等 。SAs 环 境 管理 器 是 SAs 提 供 的 监控 所 有 其 他 组 
件 的 最 好 工具 。SAS Visual Analytics 监 控 工具 需要 管理 员 在 他 的 屏幕 前 面 实时 监控 环境 ， 而 SAs 环 境 管理 器 给 予 管 理 员 通过 查阅 历史 数据 以 监视 SAs Visual Analytics 环 境 的 机 会 。 


SAs 环 境 管理 器 提供 监控 和 管理 ， 通 过 仪表 盘 监 视 进程 和 应 用 程序 ， 可 以 指定 特定 的 监控 对 象 ， 还 可 以 监视 操作 系统 和 其 他 组 件 。 该 工具 由 服务 器 、 数 据 库 和 代理 组 成 ， 如 图 8-66 
所 示 。 服 务 器 ， 默 认 情况 下 部 署 到 中 间 层 ; 数据 库 ， 默 认 情况 下 部 署 到 SAs Web Infrastructure Platform 数据 服务 器 ; 代理 程序 部 署 到 环境 中 的 所 有 计算 机 。 





SAS 环境 管理 带 
数据 库 (CMDB ) 





图 8-66 SAS 环 境 管理 器 的 组 件 
SA9S 环 境 管 理 器 中 还 含有 Hadoop 揪 件 、 单 机 的 LASR 服 务 器 播 件 ， 仅 提供 SMP。 如 果 要 获取 完整 的 Hadoop 信 息 ，EV 代 理 必 须 以 root 用 户 身份 启动 。 


关于 具体 监控 信息 的 说 明 ， 请 参阅 “SAS 智 能 平台 : 环境 管理 器 用 户 指南 ”。 


3. 管 理 报告 (Administrator Report) 


SAS Visual Analytics 具 有 审计 功能 ,分 析 从 SAS Visual Analytics 环 境 读 取 和 存储 的 历史 数据 来 回答 一 些 问题 。SAS Visual Analytics 的 审计 活动 有 三 个 方法 : SAS Visual 
Analytics 管 理 报告 、SAS EV Data Mart 和 自 定义 报告 。 


管理 报告 是 审计 应 用 程序 和 使 用 情况 的 报告 。 默 认 情况 下 ， 只 有 管理 员 和 无 限制 用 户 才能 访问 这 个 报告 。 审 计数 据 由 中 间 层 审计 服务 收集 或 生成 ， 提 取 后 放置 到 EVDMLA 自 动 加 
载 目录 ， 审 计 表 会 自动 加 载 到 SAS LASR 分 析 服 务 器 。 默 认 情况 下 ，SAS Visual Analytics 审 核 数据 将 加 载 到 LASR 分 析 服 务 器 (LASR Analytic Server) 。 随 着 时 间 的 推移 ， 可 能 会 加 载 
大 量 的 审计 数据 。 


. 审计 表 所 在 库 是 Envitonment Manager Data Mart LASR 

审计 表 名 称 是 EVDM.audit_visualanalytics 

. 审计 表 的 物理 位 置 是 <SASCONFIG>/[Levn]/AppData/SASVisualAnalytics/VisualAnalyticsAdministrator/ AutoLoad/EVDMLA 
如 果 想 扩大 预定 义 报告 的 使 用 范围 ， 管 理 员 还 需要 进行 其 他 的 配置 ， 具 体 请 参阅 “SAS Visual Analytics 7.3: 管理 员 指 南 ”。 
在 配置 环境 时 ， 要 注意 如 下 几 点 : 

` 默认 情况 下 ，LASR 分 析 服 务 器 -[ 主 机 名 ] 用 于 加 载 管理 数据 。 


EVDMLA 目 录 和 文件 必须 由 启动 LASR 服 务 器 的 用 户 拥有 。 


- 建议 创建 一 个 LASR 服 务 器 来 管理 这 些 数据 和 报告 ， 并 重新 定位 Envitonment Managet Data Matt LASR 库 。 
` 调整 收集 计划 (默认 为 15 分 钟 ) 
1) 可 以 手动 按 需 运行 主 脚本 (run.sas) 。 
2) 修改 EVDMLA 脚 本 : schedule.[sh|bat] 减 少 收集 频率 ，。 


根据 需要 调整 收集 频率 ， 管 理 员 可 能 只 需要 每 天 刷新 1 或 2 次 数据 。 不 要 忘记 AutoLoad 进 程 每 次 运行 时 都 会 生成 一 个 日 志文 件 来 收集 数据 。 应 定期 清除 旧 日 志文 件 以 回收 磁盘 空 
间 。 


最 好 不 修改 现 有 报告 ， 而 是 创建 新 报告 。 可 以 将 现 有 报告 用 作 模 版 〈 将 其 保存 为 新 报告 并 对 其 进行 修改 ) 。 
` 执行 的 某 些 操作 (例如 ， 加 载 或 读 取 表 ) 会 写 入 审计 记录 。 
:单个 用 户 的 交互 操作 会 写 入 多 个 审计 记录 【〈 例 如， 打开 使 用 多 个 表 的 报表 ) 。 
4.LASR 监 视 器 


LASR 监 视 器 支持 监视 分 布 式 服务 器 和 浏览 Co-located 的 HDFS 内 容 (如 果 适 用 ) 。 

LASR 监 视 器 仅 适 用 于 分 布 式 模式 ， 它 启用 Visual Analytics 管 理 器 的 应 用 程序 功能 ， 并 确保 以 下 应 用 程序 功能 正常 运行 : 

. HDFS 允 许 您 将 数据 从 HDFS (其 位 于 集群 中 的 计算 机 上 ) 加 载 到 SAS LASR 分 析 服 务 器 。 在 加 载 数据 之 前 ， 必 须 将 数据 添加 到 HDFS。 
资源 监视 器 可 以 在 SAS LASR 分 析 服 务 器 中 查看 资源 利用 率 ， 它 以 两 个 图 形 (利用 率 历 史记 录 和 实时 视图 ) 显示 。 

` 进程 监视 器 可 以 在 SAS LASR 分 析 服 务 器 上 查看 有 关 每 个 进程 利用 率 的 信息 。 

如 果 LASR 监 视 器 关闭 ， 客 户 端 接口 (LASR 表 、HDFS、 资 源 监 视 器 和 进程 监视 器 ) 应 用 程序 功能 不 能 工作 ， 用 户 会 得 到 一 个 错误 信息 。 

LASR 监 视 器 可 随时 独立 重新 启动 ， 默 认 由 SAS 安 装 用 户 启动 。 如 果 需 要 ， 可 以 更 改 为 其 他 用 户 。 

注意 : 如 果 重 新 配置 中 间 层 或 重新 启动 SAS Web App Server， 建 议 “ 手 动 ”重新 启动 SAAS LASR 分 析 服 务 器 监视 器 。 启 动 文件 路 径 如 下 : 


http://www.hzcoutse.com/resource/readBook? 


path=/openresoutces/teach_ebook/uncompressed/17709/OEBPS/Text/.../Levn/Applications/SASVisualAnalytics/ HighPerformanceConfigutation/LASRMonitor.sh[start | stop | status | restatt | console] 


8.2.4 安全 


大 数据 分 析 的 基础 是 大 数据 。 数 据 已 经 成 为 企业 的 核心 资产 ， 企 业 级 架构 下 的 安全 管控 也 成 了 重 中 之 重 。SAS 可 视 化 分 析 产 品 提供 了 认证 、 授 权 、 加 密 、 审 计 等 安全 功能 。 该 产品 
与 主机 环境 、Web 领 域 、 第 三 方 数据 库 系 统 的 用 户 管理 功能 协作 ， 提 供 集成 的 安全 性 身份 认证 和 数据 访问 ， 并 且 可 以 与 第 三 方 安全 性 产品 集成 ， 以 提供 安全 保障 功能 。 接 下 来 我 们 将 
专注 于 SAS Visual Analytics 7.3 的 特定 任务 ， 主 要 介绍 SASs 可 视 化 分 析 的 用 户 身份 认证 方式 ， 数 据 的 安全 管理 ，LASR 认 证 服务 如 何 对 LASR 服 务 器 内 的 数据 进行 安全 管理 。 此 外 ， 还 将 
介绍 移动 用 户 的 安全 保障 ， 以 及 如 何 与 Hadoop 的 Kerberos 认 证 相 结 合 。 


1. 身 份 认 证 


SAS Visual Analytics 使 用 平台 级 功能 进行 身份 认证 。 具 体 请 参阅 “SAS 智 能 平台 : 安全 管理 指南 ”中 的 “身份 认证 模型 ”。 有 关 移 动 设备 身份 认证 的 信息 ， 请 参阅 “SAS 智 能 平 
: 中 间 层 管理 指南 ”。 本 节 只 针对 SAS Visual Analytics 的 部 分 认证 方法 做 简要 介 双 


SAS Visual Analytics Web 应 用 程序 使 用 SAS Logon Manager 进 行 用 户 的 初始 身份 认证 。 用 户 成 功 通过 SAs Logon Manager 身 份 认 证 后 ， 能 够 访问 该 用 户 有 权 使 用 的 所 有 SAs 
Web 应 用 程序 ， 而 不 必 为 每 个 Web 应 用 程序 进行 身份 认证 。 对 于 SAS Visual Analytics， 可 以 将 SAs Logon Manager 配 置 为 使 用 SAS 9.4 中 间 层 支持 的 任何 身份 认证 方法 。 


` 为 SAS Web 服 务 器 配置 HTTPS， 以 便 在 浏览 器 和 SAS Web 服 务 器 之 间 使 用 传输 层 安 全 协议 (TLS，Transport Layet Secutity) 。 管 理 员 可 以 在 安装 之 前 获取 证 书 ， 并 使 用 SAS 部 署 向 
时 执行 TLS 配 置 。 


. 为 SAS Visual Analytics 应 用 程序 配置 Web 身 份 验证 。 


有 关 配 置 的 其 他 信息 ， 请 参阅 以 下 内 容 : “SAS Visual Analytics 7.3: 管理 指南 ”中 的 “Web 身 份 验证 和 传输 级 别 安全 ”主题 ， “SAS 智 能 平台 9.4: 安全 管理 指南 ”中 的 SAS 令 
牌 认 证 和 中 介 访 问 (Mediated Access) 主题 和 “SAS 智能 平台 9.4: 中 间 层 管理 指南 ” 


用 户 的 默认 初始 身份 认证 是 通过 SAS 元 数据 服务 器 和 SAS Logon Manager (用 于 Web 应 用 程序 ， 如 图 8-67 所 示 ) 或 SAS Visual Analytics 传 输 服 务 (用 于 SAS Mobile BI， 如 图 8- 
68 所 示 ) 来 控制 的 。 在 任何 一 种 情况 下 ， 如 果 配 置 了 Web 身 份 认证 ， 将 根据 Web 应 用 程序 服务 器 的 身份 认证 提供 程序 来 认证 账户 。 移 动 设备 访问 也 可 以 通过 包含 ( 白 名 单 ) 或 排除 
( 黑 名 单 ) 来 控制 ， 还 可 以 要 求 在 移动 设备 上 输入 密码 才 可 以 访问 报表 。 


中 间 层 ”服务 器 层 
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图 8-67 Web 应 用 程序 的 初始 化 身份 认证 
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图 8-68 SAS Mobile BI 的 初始 化 身份 认证 


(1) Web 身 份 认 证 


Web 认 证 是 Web 应 用 程序 的 用 户 在 Web 外 部 进行 认证 ， 并 且 元 数据 服务 器 信任 该 认证 。 管 理 员 可 以 为 SAs Visual Analytics 应 用 程序 配置 Web 身 份 认证 ， 但 需要 其 他 配置 来 使 用 
户 能 够 访问 工作 区 服务 器 。 如 果 配 置 了 Web 身 份 认证 ， 除 了 创建 对 SAs LASR 分 析 服 务 器 主机 有 效 的 单个 账户 外 ， 还 可 以 使 用 以 下 方法 之 一 来 帮助 访问 工作 区 服务 器 : 


. 在 Web 身 份 认证 后 ， 请 使 用 集成 Windows 身 份 认 证 (IWA) 以 及 用 户 委 派 。 
. 将 工作 区 服务 器 凭据 存储 在 每 个 用 户 的 元 数据 中 。 
. 创建 共享 服务 账户 并 使 用 SAS 令 牌 认证 。 


集成 Windows 身 份 认证 (Integrated Windows Authentication ， 缩 写 : IWA) 是 一 种 生成 和 认证 Windows 身 份 令 牌 的 Microsoft 技 术 ， 使 SAs 服 务 器 接受 经 过 Windows 桌 面 身 
份 认 证 的 用 户 。 要 在 运行 SAS 9.4M2 的 Linux 平 台 上 使 用 IWA， 只 需要 确保 具有 Kerberos 5 扩展 的 GSSAPI 的 共享 库 已 安装 并 配置 ， 并 且 人 允许 对 Active Directory 域 或 Kerberos 域 进行 身 
份 认证 。 如 果 配 置 Web 身 份 认证 ， 那 么 您 的 Web 应 用 程序 可 以 使 用 IWA。 要 为 SAS Web 应 用 程序 服务 器 配置 |IWA， 请 参阅 “SAs 9.4 智 能 平台 : 中 间 层 管理 指南 ”。 


(2) SAS 令 牌 认证 


元 数据 服务 器 为 每 个 认证 事件 生成 并 认证 一 次 性 使 用 的 身份 令 牌 ， 使 得 已 连接 到 元 数据 服务 器 的 用 户 可 以 透明 地 访问 参与 的 SAS 服 务 器 ， 具 体 认 证 流程 如 图 8-69 所 示 。 但 是 ， 在 主 
机 环境 中 ， 启 动 账户 必须 具有 适当 的 操作 系统 权限 才能 访问 数据 。 


元 数据 服务 遂 
(生成 认证 令 牌 ) 


] | 
请 求 认证 令 牌 ) 4 取信 


认证 令 脾 ”认证 令 有 牌 








~ 6 
< 一 一 一 一 接受 





图 8-69 SAS 令 牌 认证 过 程 


备用 服务 器 (Alternate Server) 配置 在 SAS Visual Analytics 环 境 中 特别 有 用 。 使 用 令 牌 认证 的 工作 区 服务 器 可 以 使 用 户 能 够 在 共享 凭证 下 导入 数据 ， 避 免 管理 员 为 SAS Visual 
Analytics 服 务 器 上 的 每 个 用 户 创建 账户 。SAS Visual Analytics 环 境 中 的 多 个 应 用 程序 服务 器 可 以 支持 多 层 主机 访问 。 


在 分 布 式 SAS Visual Analytics 部 署 中 ， 局 动 账户 必须 具有 所 需 的 主机 账户 权限 才能 够 写 入 签名 文件 目录 、va.lastAction-LogPath 目 录 和 va.monitoringPath 目 录 下 的 PIDS 目 录 ， 
向 SAS LASR 分 析 服 务 器 的 主机 进行 身份 认证 ; 通过 无 密码 ssh 访 问 集群 中 的 所 有 计算 机 。 有 关 在 SAS Visual Analytics 环 境 中 配置 令 牌 认证 的 更 多 信息 ， 请 参阅 “SAs Visual Analytics 
7.3: 管理 指南 ”。 


2. 数 据 管理 安全 


SAS Visual Analytics 数 据 对 象 在 经 由 SAS Visual Analytics 的 Web 客 户 端 加 载 时 被 注册 在 元 数据 中 。 报 表 、 数 据 探 索 、 人 存储 过 程 、 查 询 、 源 表 和 逻辑 库 的 元 数据 都 存储 在 元 数据 服 
务 器 中 。 报 表 定 义 以 XML 形式 存储 在 SAs 内 容 服务 器 中 。 通 过 元 数据 权限 管理 对 报表 和 探索 的 访问 。 所 有 已 注册 的 表 从 父 文件 夹 继 承 安全 权限 。 如 果 可 能 ， 建 议 通过 文件 夹 权限 而 不 是 
单个 表 来 设计 数据 访问 管理 ， 还 可 以 配置 访问 控制 模板 (ACT) 来 帮助 完成 这 个 工作 。SAS Visual Analytics 支 持 LASR 表 的 表 级 安全 性 和 行 级 安全 性 。 表 级 安全 性 适用 于 HDFS 和 LASR 
中 的 表 ， 行 级 安全 性 仪 适 用 于 LASR 表 。 目 前 还 不 支持 列 级 安全 性 。 在 当前 版 本 中 ， 可 以 通过 SAs 管 理 控制 台 、SAs Visual Analytics 管 理 器 或 使 用 SAS 环 境 管理 器 设置 SAS Visual 
Analytics 对 象 的 元 数据 安全 性 ， 如 表 8-18 所 示 。 请 注意 ， 可 以 通过 SAS Visual Analytics 管 理 器 或 SAS 环 境 管理 器 设置 LASR 表 行 上 的 安全 性 。 表 8-19 是 LASR 环 境 每 个 SASs Visual 
Analytics 7.3 任 务 所 需 的 元 数据 权限 。 


表 8-18 设置 SAS Visual Analytics 对 象 的 元 数据 安全 性 


EECTT 
au hl vv | 
sse | VV 
存储 过 程 (Stored Processes ) 加 EY 
Wm | VV 
查询 Queries) vv | 
Dm vv Tv 
DR | hv hv 
文件 夹 vv V 


表 8-19 SAS Visual Analytics 任 务 所 需 权 限 


EE 
部 TASR 服务 | | | 

人 上 LASR 服务 mA | hl | 
LAR | RNw RMWM | | 

Htc 表 所 中 注 骨 上下 | |RMWM jw | 

从 元 效 所 中 国 除 日 标 和 | | RM WM | RM WMM | RM WM 

设 生 表 权限 责 新 表 元 履 Co | |RM |RM | Rw 

和 i EE CE TR EE 


Ry lem ew an 


-< 


TT Rm em RM RMR 
/出 除 LASRR | RM |RM | | RMRw 
汪 儿 LASR 服务 关中 giM | RM |RM | | RMRw 


RM= 读 取 元 数据 


WM= 写 入 元 数据 


WMM=WtriteMemberMetadata 


注 1 (*) : 了 的 HOST 层 意味 着 任务 需要 操作 系统 上 LASR 服 务 器 签名 文件 位 置 的 WRITE 访 问 。 


注 2 (**) : 定义 条 件 授权 需要 LASR 表 的 WriteMetadata 权 限 。 
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(1) SAS LASR 授 权 服 务 
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图 8-69 SAS 令 牌 认证 过 程 


SAS LAsSR 授 权 服务 与 元 数据 授权 层 协作 ， 以 管理 用 户 对 内 存 数据 的 访问 。 该 授权 服务 是 从 元 数据 服务 器 获取 相关 用 户 权限 以 访问 LASR 数 据 ， 部 署 企 SAs Visual Analytics 中 间 


层 。 


SAS LASR 授 权 服 务 使 用 LASR 安 全 密 钥 创建 签名 授权 。 签 名 授权 包括 表 名 称 、 操 作 类 型 (例如 ， 表 信息 、 摘 要 统计 信息 或 回归 ) 以 及 任何 适用 的 行 级 安全 条 件 。 用 户 请 求 访问 内 存 
数据 时 ，LASR 服 务 器 会 验证 来 自 LASR 授 权 服 务 的 签名 授权 ， 并 确保 没有 恶意 用 户 能 够 在 服务 器 上 修改 授权 。LASR 安 全 密 钥 是 SAS LASR 分 析 服 务 器 和 元 数据 服务 器 之 间 唯 一 的 共享 密 


钥 。 启 动 LASR 服 务 器 时 生成 LASR 安 全 密 钥 ， 然 后 ， 此 安全 密 钥 保存 在 该 


} 云 行 


运 但 


的 LASR Server 实 例 的 内 存 中 。 安 全 密 钥 还 存储 在 元 数据 中 ， 并 与 对 应 的 LASR 服 务 器 连接 对 象 相关 联 。 停 


止 SAS LASR 分 析 服务 器 ， 则 相关 密 钥 保 留 在 元 数据 中 。 服 务 器 连接 重新 启动 ， 则 会 生成 一 个 新 密 钥 。 新 密 钥 将 蔡 换 元 数据 中 的 现 有 密 钥 。 


图 8-70 中 的 复 选 框 将 为 SAAS LASR 数 据 加 载 生 成 的 SAsIOLA 库 名 添加 一 个 SIGNER 选 项 ， 确 保 从 SAs Visual Analytics Web 客 户 端 访问 LASR 服 务 器 的 用 户 使 用 LASsR 授 权 服 务 器 。 默 
认 情 况 下 ， 此 复 选 框 处 于 选中 状态 ， 如 图 8-70 所 示 。 


选择 “使 用 LASR 授 权 服 务 ” 选 项 的 LASR 服 务 器 加 载 数据 生成 的 代码 示例 如 下 : 





LIBNAMFE, VALIBLA SASIOLA 

TAG="GATE .Marketing" 

PORT=10011 
SIGNER="sasserver01:7980/SASLASRAUuthorization" 
HOST=sasserver01; 





Connection: LASE hnoelytic Server 一 rdcesrtllli09™ Ee 忻 





站 口号; hoo | 


High-Performance Analytics 环境 主机 ， |rdcesx11109,race.sas.com 





LASR 按 椒 服务 位 置 





高 级 造 项 [Dj …， | 


图 8-70 ”启用 LASR 授 权 服 务 
如 果 不 使 用 LASR 授 权 服 务 ， 用 户 在 SAS Visual Analytics 管 理 器 中 加 载 表 ， 元 数据 安全 性 将 被 绕 过 ， 并 且 主 机 级 保护 成 为 防止 可 能 的 敏感 数据 加 载 的 唯一 障碍 。 


以 客户 端 请 求 访问 LASR 分 析 服 务 器 里 的 LASR 表 为 例 ， 如 图 8-71 所 示 ， 请 求 被 发 送 到 授权 服务 ， 授 权 服 务 从 元 数据 服务 器 接收 授权 决定 和 安全 密 铀 。 如 果 用 户 具 有 相应 操作 的 有 效 
授权 ， 则 授权 服务 向 客户 端 提供 签名 授权 。 客 户 端 向 SAs LASR 分 析 服 务 器 提交 签名 授权 。SAS LASR 分 析 服 务 器 验证 客户 端 提供 的 签名 授权 。 如 果 签 名 授权 有 效 ， 则 服务 器 提供 对 所 请 
求 的 内 存 表 的 访问 (符合 签名 授予 中 的 任何 行 级 安全 条 件 ) 。 
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图 8-71 客户 请 求 数据 查看 的 授权 流程 


(2) LASR 分 析 服 务 器 的 签名 文件 


从 前 面 SAS Visual Analytics 每 个 任务 所 需 的 权限 要 求 表 中 ， 我 们 看 到 有 两 个 管理 任务 将 创建 LASR Server 签 名 文件 : 启动 LASR 服 务 器 和 第 一 次 加 载 内 存 表 。 


签名 文件 的 默认 位 置 设置 为 /tmp， 如 图 8-72 所 示 。 这 个 选择 有 一 个 问题 ，/tmp 目 录 的 内 容 往 往 会 定期 清除 。 如 果 丢 失 表 或 LASR 服 务 器 的 签名 文件 ， 用 户 将 无 法 操作 该 表 或 服务 


器 。 在 SMC 中 ， 通 常 将 签名 文件 位 置 改 为 “<SASCONFIG>/Lev1/Applications 人 /SASVisualAnalytics7.3/LASRVSignatures” 。 


|rdeesxi 1103,.race sas.00m 坪 | 新 弹 中 NW),.， 









































图 8-72 LASR 服 务 器 签名 文件 位 置 


在 操作 系统 级 别 上 ， 对 于 每 个 启动 的 LASR 服 务 器 ， 在 服务 器 的 签名 文件 的 位 置 (或 在 使 用 PROC LASR 局 动 LASR 服 务 器 时 指定 为 “PATH” 参 数 的 位 置 ) 中 创建 一 个 新 目录 ， 如 图 
8-73 所 示 。 








drwxrwxrwx ra A096 12 月 27 B68:39| 
drwxrwxrwx 2 5asdemo gd 4096 12 月 27 69:66|| 











图 8-73 ”签名 文件 名 称 
系统 为 每 个 启动 的 LASR 服 务 器 和 每 个 加 载 的 表 创建 三 个 签名 文件 ， 如 图 8-74 所 示 。 在 考虑 LASR 服 务 器 和 内 存 表 签 名 文件 的 权限 策略 时 要 牢记 三 点 : 
" 对 于 负责 启动 特定 LASR 服 务 器 并 执行 初始 表 加 载 的 数据 管理 员 ， 确 保 其 可 以 写 入 签名 文件 位 置 。 
* 对 于 其 他 操作 系统 用 户 ， 应 确保 其 不 能 更 新 或 删除 签名 文件 。 


. 对 于 不 应 该 操作 特定 LASR 服 务 器 的 其 他 部 门 的 数据 管理 员 ， 应 限制 对 特定 服务 器 的 签名 文件 的 访问 。 


| 表 签名 文件 | 
- rwXr--r-- sasdemo ) 


oe sasdemo 
sasdemo 


sasdemo 
sasdemo 
FWXF=-=T=- sasdemo 





| 服务 器 签名 文件 





图 8-74 服务 器 和 表 的 签名 文件 
如 果 计 划 从 SAS Visual Analytics 客 户 端 外 部 加 载 数据 ( 即 不 使 用 元 数据 安全 性 ) 时 ， 那 么 在 SAS Visual Analytics 安 全 设计 时 就 要 评估 签名 文件 的 默认 权限 设置 。 
如 果 必 须 限 制 某 些 数据 管理 员 对 内 存 表 的 访问 ， 则 需要 考虑 以 下 事项 : 


. 在 TKGid 配 置 文件 中 应 该 设置 TKMPI_UMASK 的 值 (控制 创建 的 签名 文件 的 权限 模式 ) ，007 UMASK 设 置 将 限制 组 外 的 用 户 访 问 签名 文件 。 当 设置 TKMPI_UMASK 时 ， 确 保 相 
应 的 不 mpitsh.sh 文 件 〈( 比 如 /opt/sas/TKGrid) 在 SAS Visual Analytics 集 群 的 所 有 节点 上 更 新 ， 因 为 不 能 保证 哪个 节点 的 全 mpifsh.sh 文 件 将 在 LASR 服 务 器 启动 时 生效 。 


. 是 否 需 要 在 操作 系统 上 创建 多 个 数据 管理 员 组 ， 并 创建 相应 的 目录 以 将 LASR 服 务 器 签名 文件 指向 不 同 的 位 置 ， 具 体 取决 于 哪个 数据 管理 员 组 将 维护 此 数据 。 
(3) 显 式 控制 


显 式 控制 是 直接 对 对 象 应 用 限制 ， 而 不 是 利用 元 数据 文件 夹 继承 的 授权 来 进行 访问 控制 。 在 SAS Visual Analytics 管 理 器 中 ， 如 图 8-75 所 示 ， 授 权 接 口 可 用 于 LASR 表 以 及 HDFS 
表 。 管 理 员 可 直接 设置 对 该 表 的 具体 用 户 的 访问 权限 。 但 使 用 显 式 控制 会 导致 架构 变 得 越 来 越 复杂 ， 因 为 很 难 获 取 环 境 中 使 用 的 所 有 单个 显 式 控制 的 快照 ， 使 得 对 这 些 对 象 的 维护 可 能 
变 得 烦琐 。 应 尽 可 能 使 用 为 各 种 用 户 组 设计 的 应 用 于 元 数据 文件 夹 级 别 的 访问 控制 模板 来 实现 显 式 控制 ， 根 据 安全 继承 设计 文件 夹 的 层次 结构 。 
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图 8-75 SAS Visual Analytics 管 理 器 中 授权 
(4) 行 级 安全 性 
行 级 安全 性 使 您 能 够 控制 谁 可 以 访问 LASR 表 中 的 特定 行 ， 并 且 它 由 数据 过 滤器 的 表达 式 定义 访问 条 件 。 行 级 安全 性 通过 条 件 授 权 来 设置 ， 只 有 LASR 表 支持 该 功能 。 条 件 授权 是 一 


个 许可 条 件 ， 设 置 在 LASR 表 上 ， 存 储 在 元 数据 中 ， 可 以 使 用 SAS Visual Analytics 管 理 器 或 SAS 环 境 管理 器 定义 ， 但 是 在 SAS 管 理 控制 台中 不 可 见 的 。 如 果 应 用 了 条 件 授予 ， 则 对 应 表 
权限 显示 为 READ， 但 是 在 SAS 管 理 控制 台中 查看 时 ， 无 法 确定 是 否 为 表 设置 了 条 件 授予 。 因 此 ， 在 SAS 管 理 控制 台中 不 要 尝试 从 表 中 删除 READ 许 可 ， 和 否则 将 删除 相关 联 的 条 件 许可 。 


条 件 授权 可 以 在 特定 用 户 或 用 户 组 的 LASR 表 的 READ 权 限 上 设置 ， 如 图 8-76 所 示 。 
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图 8-76 条件 授 权 
条 件 授权 接口 类 似 于 SAS Visual Analytics 探 索 器 中 的 “表达 式 编辑 器 ”接口 ， 如 图 8-77 所 示 ， 它 是 一 个 拖 放 接口 ， 为 基本 操作 提供 数字 和 字符 数据 项 ， 提 示 信 息 中 显示 当前 条 件 


授权 是 针对 哪个 用 户 或 组 进行 设置 。 除 了 表示 表达 式 的 可 视图 表 ， 还 有 文本 选项 卡 ， 它 能 够 显示 从 可 视图 表 生 成 的 公式 ， 并 且 人 允许 在 表达 式 中 编辑 /输入 ， 也 人 允许 在 不 同 的 条 件 授权 之 
间 复 制 /粘贴 表达 式 。 
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图 8-77 条 件 授权 的 表达 式 编 辑 器 


注意 如 下 行 级 安全 考虑 : 

` 在 条 件 授 予 接口 中 仅 支 持 基 本 运算 符 : 数值 、 文 本 和 布尔 运算 符 。 

- 无 法 使 用 格式 化 的 日 期 ， 但 可 以 基于 不 同 应 用 格式 的 SAS 日 期 第 选 数据 。 

一 旦 条 件 被 定义 和 保存 ， 用 户 将 不 能 从 条 件 接口 本 身 删 除 它 。 但 是 可 以 通过 将 LASR 表 上 的 “ 读 取 ”权限 还 原 为 “无 显 式 控制 ”来 删除 现 有 条 件 。 

如 果 在 加 载 LASR 表 时 使 用 STAR 模式 功能 ， 用 户 可 以 在 STAR 模式 的 输出 表 或 视图 上 设置 显 式 控制 〈 包 括 权 限 条 件 ) 。 当 重新 运行 LASR 星 型 模式 时 ， 任 何 显 式 控制 都 会 保留 。 
除了 在 SAS Visual Analytics 管 理 器 的 权限 条 件 编辑 器 中 定义 条 件 表达 式 ， 还 可 以 

“ 使 用 SAS 批 处 理工 具 或 SAS Data Step 以 编程 方式 定义 权限 条 件 


` 使 用 SAS 函 数 和 其 他 自 定 义 逻 辑 〈 包 括 身 份 驱动 的 安全 性 ) 


. 使 用 自由 编码 编辑 器 在 SAS Visual Analytics 管 理 器 中 编辑 程序 定义 的 条 件 


当 在 SAS Visual Analytics 环 境 中 测试 用 户 的 安全 设置 时 ， 一 定 要 了 解 有 关 LASR 授 权 服 务 的 “las.caching.permission.lifetime” 属性 设置 ， 如 图 8-78 所 示 。 为 了 增强 性 能 ， 授 权 
服务 会 缓存 相关 用 户 和 权限 的 信息 。 “las.caching.permission.lifetime” 属性 就 是 控制 此 缓存 刷新 的 频率 。 此 属性 的 默认 设置 为 15 分 钟 。 注 意 到 ， 在 用 户 的 SAs Visual Analytics 会 话 
中 设置 用 户 权 限 和 反映 此 权限 之 间 存 在 滞后 ， 可 以 重 置 为 更 小 的 数字 来 增加 刷新 频率 。 
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图 8-78 设置 授权 服务 缓存 的 刷新 率 
(5) 预定 义 角色 和 访客 


通过 角色 控制 对 SAS Visual Analytics 应 用 程序 功能 的 访问 。 要 查看 特定 角色 的 功能 ， 可 以 在 SAS 管 理 控制 台 的 用 户 管 理 器 插件 中 查看 角色 具体 的 属性 。 如 果 预 定义 的 一 组 角色 和 
权力 不 足 ， 则 可 以 使 用 自 定义 功能 创建 新 角色 。 不 建议 修改 预定 义 的 角色 。 如 图 8-79 所 示 为 标准 组 成 员 结构 。 


在 通常 的 环境 中 ， 数 据 管 理 员 操作 LASR 服 务 器 (启动 、 停 止 ) 和 内 存 数 据 (加 载 、 印 载 、 重 新 加 载 ) ， 还 要 控制 对 内 存 数据 的 访问 。 有 些 数据 管理 员 只 能 控制 /访问 专用 的 LASR 
服务 器 和 相应 的 数据 ， 这 通常 是 部 门 LASR 服 务 器 的 情况 。 管 理 员 可 能 需要 创建 专用 的 访问 控制 模板 (ACT) 来 控制 部 门 LASR 服 务 器 的 管理 权限 。 根 据 企 业 需 求 ， 设 计 自己 的 数据 管理 
员 权 限 。 


PUBLIG 
SASLISERS [Visual Analytics: Basic| 


Visual Analytics Users [Visual Analytics: Report Viewing, Visual Analytics: Analysis] 


/ Visual Data Builder Administrators [Visual Analytics: Data Building] 


Visual Analytics Data Administrators [Visual Analytics: Administration] 





SAS Administrators [Metadata Server: User Admnistraton] 





图 8-79 SAS Visual Analytics 组 成 员 结 构图 


除了 数据 管理 员 ， 可 能 还 需要 创建 一 个 单独 的 数据 准备 有 用户。 数据 准备 操作 需要 访问 ETL 相 关 的 元 数据 文件 来 。 如 果 将 数据 准备 职责 与 数据 管理 职责 相 结 合 ， 应 考虑 访问 管理 的 影 
响 。 


(6) 访客 访问 


访客 可 以 通过 下 面 两 个 特定 链接 访问 公开 共享 的 报表 ， 不 需要 登录 凭据 即 可 访问 SAS Visual Analytics 环 境 ， 但 只 能 查看 报表 (没有 探索 或 者 报表 设计 功能 ) 。 访 客 在 后 台 使 用 共 
享 元 数据 账户 : SAS 匿 名 Web 用 户 (webanon@saspw) ， 通 过 对 此 共享 账户 设置 的 安全 性 就 可 以 确定 每 个 访客 可 见 哪些 报表 。 


SAS Visual Analytics 主 页 : http://<server>:<port>/SASVisualAnalyticsHub/guest.jsp 
SAS Visual Analytics 查 看 器 : http://<server>:<port>/SASVisualAnalyticsViewer/guest.jsp 


在 真实 的 生产 环境 中 ， 访 客 访问 的 多 种 需求 要 考虑 。 有 时 ， 访 客 查 看 报表 ， 需 要 有 对 内 存 表 的 读 取 权限 ; 有 时 ， 访 客 访问 报表 ，LASR 表 上 的 数据 不 能 满足 客户 需求 ， 需 要 得 阅 其 


他 报表 ; 有 时 ， 客 户 要 用 这 些 数据 创建 一 个 报告 ， 并 将 其 保存 。 我 们 建议 为 访客 建立 单独 的 元 数据 文件 夹 ， 以 便 进 行 “ 正 常 ”身份 验证 。 
针对 访客 用 户 的 安全 ， 建 议 : 
将 所 有 与 访客 相关 的 元 数据 内 容 分 离 到 单独 的 元 数据 文件 夹 中 。 
` 创建 专用 的 LASR 分 析 服 务 器 、 逻 辑 库 和 加 载 专用 表 以 供 访客 访问 。 
. 创建 访问 控制 模板 (ACT) 授予 对 SASUSERS 的 只 读 访 问 权限 。 
` 创建 ACT 以 防止 访问 其 他 文件 来 。 
对 于 不 需要 访客 访问 或 导致 安全 问题 的 环境 ， 管 理 员 可 以 关闭 访客 访问 功能 。 
(7) SASHDAT 文 件 的 磁盘 加 密 


从 SAS Visual Analytics 7.2 开 始 ， 可 以 对 静态 数据 进行 加 密 。Reload-On-start 后 备 存储 中 的 文件 ， 可 以 使 用 元 数据 绑 定 库 (Metadata-bound library) 提供 AES 加 密 。 
SASHDAT 文 件 ， 可 以 使 用 SASHDAT 引 警 和 SAS LASR 授 权 服 务 来 提供 AES 加 密 。 要 使 用 AES 加 密 ， 必 须 安装 TKGrid Encryption Extension 和 SAS/SECURE。 加 密 文件 不 像 未 加 密 文件 
那样 能 够 快速 读 取 或 写 入 。 在 加 密 的 SASHDAT 库 中 ， 添 加 、 删 除 或 加 载 关 联 数据 的 用 户 必须 被 授予 读 取 权限 。 


3. 移 动用 户 安全 


从 移动 设备 登录 到 服务 器 下 载 报告 时 ， 必 须 指定 凭据 。 与 所 有 SAS Visual Analytics 组 件 一 样 ， 用 户 必须 具有 SAS 元 数据 标识 才能 登录 ， 并 且 只 能 看 到 SAS 元 数据 安全 性 允许 该 用 户 
查看 的 报告 。 移 动用 户 访问 报告 时 ， 报 告 数据 作为 CSV 文 件 下 载 到 移动 设备 缓存 里 ， 在 移动 设备 上 设置 密码 可 启用 内 置 加 密 。SAS Visual Analytics Transport Service 提 供 移动 设备 和 
SAS Visual Analytics 授 权 服 务 之 间 的 通信 。 


SAS Mobile Bl 应 用 程序 使 用 供应 商 / 应 用 程序 特定 的 identifierForVendor 值 作为 设备 1D。SAS Mobile Bl 应 用 程序 将 最 初生 成 的 identifierForVendor 键 存储 在 设备 的 钥匙 串 中 。 
每 当 需 要 identifierForVendor 密 钥 时 ，SAS Mobile Bl 应 用 程序 首先 查看 钥匙 串 中 是 否 存在 现 有 密 铀 ， 然 后 再 生成 新 值 。 因 此 ， 在 更 新 9AS Mobile Bl 应 用 程序 时 ， 设 备 1D 应 保持 一 
致 。 如 果 用 户 对 设备 进行 了 完全 复位 ， 则 设备 钥匙 串 也 将 复位 。 在 这 种 情况 下 ， 设 备 1D 将 发 生 更 改 ， 可 能 会 影响 白 名 单 / 黑 名 单 功 能 。 


在 Visual Analytics 管 理 器 通过 黑 名 单 和 日 名 单 交 互 式 管 理 移动 设备 。 一 次 只 能 启用 一 个 列表 。 黑 名 单 是 默认 启用 的 ， 日 名单 是 默认 禁用 的 ， 如 图 8-80 所 示 。 您 可 以 更 新 已 禁用 列 
表 中 的 设备 ， 但 在 启用 后 才 会 生效 。 在 SAS 管 理 控制 台中 ， 将 Visual Analytics Transport Service 7.3 的 高 级 属性 “viewerservices.enable.whitelist.support” 的 值 改 为 true， 就 启用 
了 日 名 单 。 黑 名 单 没有 类 似 的 属性 。 在 启用 白 名 单 时 ， 黑 名 单 自动 变 为 禁用 。 


| 登录 历史 | 黑 名 单 | 白 名 单 | 管理 历史 





Bs 设备 也 设备 类 型 + 
sasdeno 29FEE912-BAB6-dFd-BlEE-0EBS8103A9A93 iPhone 
图 8-80 ”移动 用 户 的 白 名 单 默 认 禁 用 
SAS Visual Analytics Transport Service 在 移动 用 户 管理 中 有 三 种 功能 : 


` 清除 移动 报表 数据 。 黑 认 情 况 下 ， 缓 存 数 据 保 留 在 移动 设备 上 以 供 离线 模式 使 用 。 局 用 此 功能 后 ， 关 闭 报表 时 ， 将 清除 用 户 移动 设备 上 的 缓存 数据 。 如 果 用 户 需要 在 脱 机 模式 下 
访问 报告 ， 要 确保 未 启用 此 功能 〈 黑 认 情 况 下 未 启用 ) 。 


在 移动 设备 上 需要 密码 。 启 用 此 功能 时 ， 需 要 连接 用 户 在 其 移动 设备 上 输入 密码 。 


. 限制 脱 机 访问 的 持续 时 间 。 具 有 此 功能 并 已 脱 机 一 段 时 间 的 用 户 必须 登录 到 SAS Mobile BI 才能 访问 任何 移动 报表 数据 。 时 间 限 制 在 属性 viewerservices.offline.limit.days 中 指定 ， 默 
认 值 为 15 天 。 


4.Kerberos 


Kerberos 是 一 种 基于 对 称 密 钥 技术 的 身份 认证 协议 ， 它 作为 一 个 独立 的 第 三 方 的 身份 认证 服务 ， 可 以 为 其 他 服务 提供 身份 认证 功能 ， 当 客户 端 身 份 认 证 通过 后 ， 可 以 访问 多 个 服 
务 。Kerberos 身 份 认 证 主要 有 两 个 阶段 ， 如 图 8-81 所 示 : 第 一 个 阶段 是 Kerberos Distribution Center (KDC) 对 Client 身 份 认证 ， 第 二 个 阶段 是 Service 对 Client 身 份 认证 。 当 用 户 在 
访问 一 个 集成 了 Kerberos 的 服务 之 前 ， 需 要 先 通 过 KDC 的 身份 认证 。 若 身份 认证 通过 ， 则 用 户 会 拿 到 一 个 TGT (Ticket Granting Ticket) 。 客 户 端 应 用 程序 会 使 用 TGT 以 及 需要 访问 
的 服务 名 称 (如 HDFS) 去 KDC 获 取 ST (Service Ticket) ， 然 后 ST 将 作为 Hadoop 服 务 连 接 的 一 部 分 一 起 被 发 送 。 相 应 的 Hadoop 服 务 使 用 与 KDC 交 换 的 服务 密 钥 解 密 ST 来 验证 用 
户 。 如 果 解 密 成 功 ， 该 用 户 就 被 Hadoop 服 务 认证 通过 。 


1. 客户 获取 TGT 

2。 客户 端 应 用 程序 使 用 TGT 为 访问 的 Hadoop 服 务 请 求 ST 
3。 客户 端 应 用 程序 连接 Hadoop 服 务 ， 并 提供 该 服务 的 ST 
4，Hadoop 慑 务 使 用 服务 密 钥 和 ST 认证 用 户 

5， 从 Hadoop 服 务 返 回 结果 





图 8-81 基本 的 Kerberos 认 证 过 程 


SAS 支 持 使 用 Kerberos 身 份 认证 协议 的 Hadoop， 但 SAS 不 管理 Kerberos 任 证 缓存 (Kerberos Ticket Caches) ， 也 不 直接 请 求 Kerberos 任 证 (Tickets) 。SAS 通 过 标准 的 


GSSAPI (Generic Security Services Application Program Interface, 通用 安全 服务 应 用 程序 接口 ) 和 操作 系统 进行 操作 。 因 此 ， 一 个 关键 的 先决 条 件 是 要 使 操作 系统 与 客户 选择 的 
用 户 存储 库 和 Kerberos 分 布 正 确 集成 。 集 成 方法 有 很 多 ，SAS 对 此 没有 任何 特定 的 需求 。 唯 一 的 要 求 是 通过 任 证 缓存 提供 生成 的 TGT， 使 之 作为 用 户 会 话 初始 化 的 一 部 分 。 如 果 SAS 进 
程 不 能 访问 凭证 缓存 ， 则 该 进程 不 能 使 用 TGT 来 请 求 ST。 有 两 种 类 型 的 SAS 进 程 需要 访问 凭证 缓存 : 第 一 个 是 由 SAS Foundation 处 理 Hadoop LIBNAME 语 句 时 ; 第 二 个 是 在 SAS 高 性 


LAN 


能 分 析 环 境 里 SAS 可 视 化 分 析 产 品尝 试 访问 Hadoop 时 。 这 两 个 进程 都 必须 能 够 访问 凭证 缓存 。 


所 有 运行 SAS 处 理 的 主机 都 必须 与 Kerberos 集 成 。 在 SAS Visual Analytics 的 分 布 式 环境 中 ， 建 议 将 SAS 服 务 器 和 高 性 能 分 析 环 境 置 于 与 Hadoop 相 同 的 域 ， 如 图 8-82 所 示 。 这 种 


部 署 极 大 地 简化 了 初始 配置 ， 因 为 一 旦 SAS 主 机 的 操作 系统 被 集成 ，SAS 将 能 够 访问 Hadoop 环 境 。SAS 高 性 能 分 析 环 境 中 的 所 有 节点 必须 与 Kerberos 和 集成， 并 且 SSH 相 互通 信 必 须 使 
用 Kerberos 而 不 是 SSH 密 钥 。 另 外 ， 安 装 SAS Foundation 的 主机 还 必须 与 Kerberos 集 成 ， 因 为 它们 最 初 将 运行 Hadoop LIBNAME 语 句 。 
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图 8-82 SAS 部 署 在 Hadoop 的 Ketberos 域 

要 拥有 一 个 完全 可 操作 和 安全 的 Hadoop 环 境 ， 理 解 Kerberos 启 用 的 要 求 、 准 备 和 处 理 是 至 关 重 要 的 。 具 体 配 置 时 注意 下 面 事项 : 
1. 了 解 Kerberos 身 份 认证 的 基础 知识 以 及 Hadoop 提 供 商 所 提倡 的 最 佳 实践 。 

2. 通 过 在 同一 组 机 器 上 安装 SAs 和 Hadoop 来 简化 Kerberos 设 置 。 

3. 确 保 在 安装 和 配置 与 Hadoop 交 互 的 SAs 应 用 程序 时 满足 Kerberos 先 决 条 件 。 


4. 在 高 性 能 环境 中 联合 配置 SAS 和 Hadoop 时 ， 确 保 所 有 SAS 服 务 器 都 能 够 被 Kerberos 识 别 。 


Kerberos 身 份 认证 解决 了 网 络 中 机 器 间 的 访问 安全 性 问题 。 使 用 Keberos 身 份 认证 的 Hadoop， 增 加 了 SAS 实 施 的 复杂 性 。 最 好 在 项 目 早期 就 询问 客户 是 否 需要 使 用 Kerberos， 尽 
早 做 好 项 目 计划 。 有 关 Kerberos 安 全 规划 的 详细 信息 ， 请 参阅 SAS 官 方 网 站 。 


8.3 ”本 章 小 结 


本 章 简要 介绍 企业 级 部 署 中 架构 的 设计 方案 、 分 布 式 部 署 要 点 、 检 验方 法 和 一 些 配 置 内 容 ， 然 后 进一步 介绍 了 SAS 可 视 化 分 析 环 境 中 常用 的 服务 器 、 基 本 用 户 和 组 的 定义 ， 以 及 系 
统管 理 员 能 够 使 用 的 管理 工具 和 相关 内 容 介绍 ， 包 括 管理 服务 器 ， 监 控 系统 资源 ， 描 述 用 户 如 何 进行 身份 验证 ， 实 现 数据 自动 加 载 ， 实 施 审计 和 管理 移动 设备 等 。 


